![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
主要是分享爬虫的学习
weixin_41098099
这个作者很懒,什么都没留下…
展开
-
python使用numpy清洗爬取后的数据
对于刚爬取的数据,数据一般不会全部按照你的格式,整整齐齐的排列,比如:这时候,需要我们对数据进行清洗。1.读取数据出来data = []with open("51job.csv",encoding='gbk') as csvfile: csv_reader = csv.reader(csvfile) # 使用csv.reader读取csvfile中的文件 data_header = next(csv_reader) # 读取第一行每一列的标题 ['职位', '薪资', '公司'原创 2020-09-12 03:06:18 · 880 阅读 · 0 评论 -
Python爬取招聘网岗位动态信息
1.熟悉chromedriverhttps://blog.csdn.net/weixin_41098099/article/details/1071285662.查看网页的页数、分析进入https://www.51job.com/,搜索随意个岗位,例如这里是‘大数据’,如图:分析网页地址:第一页:https://search.51job.com/list/000000,000000,0000,00,9,99,大数据,2,1.html?lang=c&stype=1&postcha原创 2020-09-11 17:50:08 · 564 阅读 · 0 评论 -
关于“FileNotFoundError: [Errno 2] No such file or directory“的错误
昨天学习爬虫,保存文件时,突然发现文件找不到的错误:但是我用的是with open() as f:的语句,找不到的话,会帮我创建的啊。后面晚上睡觉回想下是因为还有"/"的符合,这里已经包含路径的分割了,我们需要讲它删除或者替换等方法。这里我选择删除的方法:果然运行成功了。总结:在创建文件时,需要注意其文件名是否含有一些特殊的符号,例如/、转义符之类的。...原创 2020-04-11 13:36:27 · 2684 阅读 · 1 评论 -
python运行时出现AttributeError:’NoneType‘ object has no attribute ’find_all‘的错误
今天,在用python练习爬虫时,突然出现了出现‘AttributeError: ‘NoneType’ object has no attribute ‘find_all’’的错误。分析:article的类型是为‘NoneType’,而一般只有‘bs4.BeautifulSoup’有‘find_all’这个方法,此时在想能否直接将‘NoneType’转为‘bs4.BeautifulSoup’,但发现这样会报错。再分析前面成功转换的代码,其转换前的状态是’str’类型,尝试着先把它转换为’st原创 2020-05-14 23:56:03 · 17611 阅读 · 0 评论 -
使用selenium爬取动态页面
在爬取某些页面时,由于其一些内容是使用js动态加载,导致只能爬取到部分的内容(静态内容)。此时,可以使用selenium库来解决。# coding=utf-8from selenium import webdriverfrom selenium.webdriver.chrome.options import Options# 为了将Chrome不弹出界面,实现无界面爬取chrome_options = Options()chrome_options.add_argument('--headle原创 2020-07-04 18:44:34 · 675 阅读 · 0 评论 -
小白通过Fiddler爬取手机app的数据并提取出来(详细版)
我们就以爬取安卓端上的王者营地上英雄热度榜为例:前期准备工作:下载安装Fiddler,并配置好相关连接选项1.下载:https://www.telerik.com/fiddler,进入网站点击Download now再填写好相关信息,点击红色的Download for Windows,即可完成下载。2.安装基本是往下点就行,确定好安装路径即可。这里,我是选择在我的E盘3.配...原创 2020-04-12 15:00:37 · 18554 阅读 · 23 评论