自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 爬虫项目实战2.1 Selenium爬取Boss招聘信息

But容易出现网络不稳定造成的无法定位元素所在位置的情况,小范围爬取可以。岗位名称、薪资、岗位要求、地区、公司名称、公司规模、细节链接。3.筛选base杭州的岗位保存到csv文件中。2.基于爬取结果筛选符合条件的信息。关于数据的分析,后面继续补充...

2023-06-28 16:44:27 2380 5

原创 解决Selenium爬取数据写入csv文件中文乱码的问题

"uft-8-sig"中sig全拼为 signature 也就是"带有签名的utf-8", 因此"utf-8-sig"读取带有BOM的"utf-8文件时"会把BOM单独处理,与文本内容隔离开。“utf-8”会将全部内容视作无标签文本处理。

2023-06-28 13:16:57 457 1

原创 Selenium爬虫报错

先说下背景:由于本人使用的是Microsoft Edge浏览器,电脑本身并没有安装谷歌浏览器,selenium版本为3.141.0。Error分析:使用selenium打开浏览器部分报错,显示chromedriver驱动需要在路径下,即需要对驱动做操作。代码功能:第一次使用selenium模仿浏览器操作,爬取Boss直聘的招聘信息(requests容易被反爬虫)2. 下载edge浏览器驱动(驱动的版本。方法一:直接在浏览器查询。方法二 :浏览器>设置>下载后解压,为以下文件。

2023-06-28 11:04:24 888 1

原创 Python爬虫基础知识与项目实战

二者都可以更改指定url的语义,但PUT被定义为idempotent的方法,即重复执行多次,产生的效果是一样的;method:请求方式,对应七种方法get/head/post/put/patch/delete/options。方式二:无视标记,直接搜索,即对信息的文本使用查找函数(拿到任务后可以先在源代码处手动 搜索一下),建议遵守的爬取策略(哪些可以爬,哪些不能),一般位于网站根目录的robots.txt下。方式一:解析(XML,JSON,YAML)的标记形式→提取标记对应的信息。

2023-06-27 11:34:13 577 1

原创 Pandas学习——物流行业数据分析

—————————————学习资料和数据来源于B站-Python-学习库——————————

2023-06-09 15:25:38 1029 1

原创 数据分析基础项目一、餐厅订单数据分析

python数据分析基础——零基础想转行数分一直在路上~

2023-06-08 20:43:53 1341 1

原创 NCBI数据下载的几种方法

批量下载Genbank中的数据

2022-01-09 13:51:26 10815 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除