这是当时在中国mooc学 用python玩转数据 时,写的一个小demo.
程序实现步骤
1.从某一网站爬取数据,比如我是在豆瓣爬取的书评
利用Requests库的get()爬取网页
使用BeatifulSoup库对爬取网页进行解析。
写入文件
2.对所爬取字符串分词
利用分词器 jieba ,逐行用jieba分词,单行代码如:
word_list=pseg.cut(subject)
3.去除停用词
很多如 “的”、“我们”这样的词以及一些符号对主题热点词分析并没有用,所以要删去过滤这些词。代码如:
stop_words =set(line.strip() for line in open('stopwords.txt',encodeing='utf-8'))
4.选择名词
jieba中的词性标签使用了传统方式,例如’n’是名词,’a’是形容词,’v’是动词。数据中的名词更能代表热点,可以单独选择名词进行后续处理,选择所有的名词放到一个列表中的代码如下:
for word, flag in word_list:
if not word in stop_words and flag &