爬虫
文章平均质量分 71
记录爬虫学习过程
海伦•
求知若渴,大智若愚
展开
-
机器学习-模型训练
目录1.逻辑回归模型2.KNN模型3.随机森林模型4.决策树模型4.贝叶斯模型5.支持向量机模型步骤:导入必要的第三方库 读取数据 划分数据集 可选操作,引入停用词,当作参数传入特征提取器 特征提取 提取的向量当作特征传入逻辑回归模型1.逻辑回归模型使用TF_IDF提取的向量当作特征传入逻辑回归模型#首先将用到的包进行导入import pandas as pdimport numpy as npimport jiebaimpo...原创 2021-10-25 15:37:44 · 6240 阅读 · 0 评论 -
数据预处理与清洗(二)实战
1 数据预处理数据预处理目的是得到形式一致的数据,使得后续按照统一的方式进行数据清洗。每人汇总爬虫到的所有数据,按(评论,评分)的形式存入csv表格中; 去除重复评论,使用Numpy、Pandas等方式; 去除默认评论,以及长度过短的无效评论; 将所有评分划分为3个分类(1-2分为差评,3-4分为中评,5分为好评),使之成为三分类数据。代码:import numpy as npimport pandas as pddf = pd.read_csv('2result.cs...原创 2021-10-18 18:52:49 · 1815 阅读 · 0 评论 -
数据预处理与清洗(一)入门
遇到问题开始为了方便查看每个款式的评论我是每个手机评论分开存在csv然后手动放在一起,然后导致文件保存为GBK格式,所以jupyter无法打开解决方法:用python将GBK文件转为utf-8文件,代码如下:import csv# 打开要修改格式的csv文件 data1,并读出内容到readerwith open('JDcontents_vivo.csv', 'r',encoding = 'GBK') as f: reader = csv.reader(f) for.原创 2021-10-11 16:57:32 · 394 阅读 · 0 评论 -
爬取京东一万条评论-python
要求:1 万条以上的京东手机评论爬取(爬取内容为评论 +score)浏览器部分为了一次爬取评论更多的手机所以在选取url的时候优先筛选相应品牌评论更多的款,以我爬取的vivo品牌为例:1.筛选评论2.选择一款商品后点击对应评论3.f12键进入调试界面4.选择js文件格式:因为我们想要获取的评论是保留在JSON格式里面的而不是在url里面,通过检查与ctrl+F就可以发现。5.分别点击好评、中评、差评,就可以看到分别出现三个JSON格式文件与他们对应6...原创 2021-09-28 10:29:03 · 3777 阅读 · 2 评论 -
爬虫-Bs4、Xpath
Bs41.拿到主页面的源代码,提取子页面链接,href2.通过herf获取子页面内容就可以获取图片的下载地址,img-》src3.下载图片代码:import requestsfrom bs4 import BeautifulSoupimport timeurl = "https://www.umei.cc/bizhitupian/weimeibizhi/"resp = requests.get(url)resp.encoding = 'utf-8'resp.close.原创 2021-09-25 12:59:42 · 124 阅读 · 0 评论