输出结果:
所有的网页已经下载到了本地,开始筛选信息。。。。
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
当前页面爬取完成
(2)部分数据展示
1 | 好好画画啦 |
2 | 求各专业大佬 |
3 | 欢迎报考北邮 |
4 | 话费充值需要dd |
5 | 兼职有没有来的 |
6 | 在校大学生一枚 |
7 | 滴滴,喜欢的看过来 |
8 | 大学生进!!! |
9 | 有什么快速挣钱的好方法? |
10 | 大学,要挣米,来,???带一手 |
11 | 大学宿舍限电是普遍现象吗,一般限多少瓦 |
12 | 你们认为大学生打工,什么工作最好 |
13 | 家人们该不该 |
14 | 兼职介绍,有没有 |
15 | 稳稳的一天 |
16 | 创建一个资源共享群,亲们留下你们的微信,我拉你们进群 |
17 | 假期的小工作 |
18 | 寻说明书系统说明,撰写选手 |
19 | 加QQ!!!… |
20 | 有兼职群吗 |
2、数据预处理
(1)中文分词
爬取到的评论,使用Python爬取了中文数据集之后,首先需要对数据集进行中文分词处理。由于英文中的词与词之间是采用空格关联的,按照空格可以直接划分词组,所以不需要进行分词处理,而中文汉字之间是紧密相连的,并且存在语义,词与词之间没有明显的分隔点,所以需要借助中文分词技术将语料中的句子按空格分割,变成一段段词序列。使用中文分词技术及Jiaba中文分词工具。
分词后的评论并不是所有的词都与文档内容相关,往往存在一些表意能力很差的辅助性词语,比如中文词组“我们”、“的”、“可以”等,英文词汇“a”、“the”等。这类词在自然语言处理或数据挖掘中被称为停用词(Stop Words),它们是需要进行过滤的。通常借用停用词表或停用词字典进行过滤,这里所用的停用词表可以在文末进行获取。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import networkx as nx
plt.rcParams[‘font.sans-serif’] = [‘KaiTi’] #指定默认字体 SimHei黑体
plt.rcParams[‘axes.unicode_minus’] = False #解决保存图像是负号’
import jieba
stop_list = pd.read_csv(“停用词.txt”,index_col=False,quoting=3,sep=“\t”,names=[‘stopword’], encoding=‘utf-8’)
#Jieba分词函数
def txt_cut(juzi):
lis=[w for w in jieba.lcut(juzi) if w not in stop_list.values]
return (" ").join(lis)
df=pd.read_csv(‘E:/工作/硕士/data.csv’,encoding=“ANSI”)
df[‘cutword’]=df[‘PL’].astype(‘str’).apply(txt_cut)
df=df[[‘PL’,‘cutword’]]
df
输出结果: