山东大学舆情分析系统算法模块开发日志 2021.04.04

算法模块开发日志 2021.04.04


算法模块

  • 优化了保留词、停用词、无关词、分词工具的加载方式,分词速度得到提高
  • 增加了保留词、无关词词库的内容,使分词结果更加准确
  • 增加了如下功能:
    • 获取出现频率前十的热词
    • 获取某个热词当天及前三十天的热词频度
    • 获取某个热词当月及前十二月的热词频度
    • 获取某个热词当年及前十年的热词频度
    • 获取某个热词数据来源分布等方法

GitHub地址:https://github.com/STK425/Algorithm

系统框架

初步的系统框架设计。
主程序(SDU_POAS.py):

import Crawler_Algorithm as CA
import Web_Monitor as WM

def main():
    #CA.Main_Loop()
    WM.Web_Listener()

if __name__ == '__main__':
    main()

爬虫、算法部分(Crawler_Algorithm.py):

import time
import Database as db

def Main_Loop():
    i = int(input())
    while i != 0:
        res = Web_Crawler()
        Algorithm(res)
        time.sleep(5)#60 * 60
        i = int(input())

#爬虫模块接口
def crawl(url):
    print("crawling")
    res = []
    return res

def Web_Crawler():
    url_set = db.get_url()
    for item in url_set:
        crawl(item)

    res = []
    return res

#算法模块接口
def Algorithm(data_set):
    print("algorithm")

网页监听部分(Web_Monitor.py):

import Crawler_Algorithm as CA

def Get_url():
    print("url")

def Login(account, password):
    if account == "123" and password == "123":
        return True
    else:
        return False

def Web_Listener():
    ac = input("账号:")
    pw = input("密码:")
    if Login(ac, pw):
        print("功能代号:\n0:退出\t11:启动主程序\t2指定url")#关闭程序、管理url、管理热词……
        i = int(input("请输入功能代号"))
        while i != 0:
            if i == 1:
                CA.Main_Loop()
            elif i == 2:
                Get_url()
            i = int(input())
    else:
        print("登录失败")

数据库部分(Database.py):

#import pymysql

def get_url():
    return ["https://www.baidu.com"]

def get_user():
    print("get_user")

def get_KW():
    print("get_KW")

def get_info():
    print("get_info")

def set_url():
    print("set_url")

def set_user():
    print("set_user")

def set_KW():
    print("set_KW")

def set_info():
    print("set_info")
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值