- 博客(7)
- 收藏
- 关注
原创 爬虫项目实战2.1 Selenium爬取Boss招聘信息
But容易出现网络不稳定造成的无法定位元素所在位置的情况,小范围爬取可以。岗位名称、薪资、岗位要求、地区、公司名称、公司规模、细节链接。3.筛选base杭州的岗位保存到csv文件中。2.基于爬取结果筛选符合条件的信息。关于数据的分析,后面继续补充...
2023-06-28 16:44:27
2540
5
原创 解决Selenium爬取数据写入csv文件中文乱码的问题
"uft-8-sig"中sig全拼为 signature 也就是"带有签名的utf-8", 因此"utf-8-sig"读取带有BOM的"utf-8文件时"会把BOM单独处理,与文本内容隔离开。“utf-8”会将全部内容视作无标签文本处理。
2023-06-28 13:16:57
556
1
原创 Selenium爬虫报错
先说下背景:由于本人使用的是Microsoft Edge浏览器,电脑本身并没有安装谷歌浏览器,selenium版本为3.141.0。Error分析:使用selenium打开浏览器部分报错,显示chromedriver驱动需要在路径下,即需要对驱动做操作。代码功能:第一次使用selenium模仿浏览器操作,爬取Boss直聘的招聘信息(requests容易被反爬虫)2. 下载edge浏览器驱动(驱动的版本。方法一:直接在浏览器查询。方法二 :浏览器>设置>下载后解压,为以下文件。
2023-06-28 11:04:24
956
1
原创 Python爬虫基础知识与项目实战
二者都可以更改指定url的语义,但PUT被定义为idempotent的方法,即重复执行多次,产生的效果是一样的;method:请求方式,对应七种方法get/head/post/put/patch/delete/options。方式二:无视标记,直接搜索,即对信息的文本使用查找函数(拿到任务后可以先在源代码处手动 搜索一下),建议遵守的爬取策略(哪些可以爬,哪些不能),一般位于网站根目录的robots.txt下。方式一:解析(XML,JSON,YAML)的标记形式→提取标记对应的信息。
2023-06-27 11:34:13
614
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人