![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
chd_咚咚
种一棵树最好的的时间是十年前,其次是现在
展开
-
python异步爬虫之使用线程池爬取排行榜视频
高性能异步爬虫 目的:在爬虫中使用异步实现高性能的数据爬取操作。异步爬虫的方式: - 多线程,多进程(不建议): 好处:可以为相关阻塞的操作单独开启线程或者进程,阻塞操作就可以异步执行。 弊端:无法无限制的开启多线程或者多进程。 - 线程池、进程池(可以适当的使用) 好处:可以降低系统对进程或者线程创建和销毁的一个频率,从而很好的降低系统的开销。 弊端:池中线程或者进程的数量有上限。爬取目标:梨视频生活页四个最热视频目标网址:https://www.pear原创 2020-09-02 16:15:30 · 340 阅读 · 0 评论 -
python学习之xpath解析原理及用法
原创 2020-08-31 14:54:47 · 1104 阅读 · 0 评论 -
python学习之bs4解析及用法
bs4数据解析数据解析的原理:1.标签定位2.提取标签、标签属性中存储的数据值bs4数据解析的原理:1.实例化一个BeautifulSoup对象,并将页面源码数据加载到该对象中2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取环境安装:pip install bs4pip install lxml项目1项目2项目3 计划任务 完成任务...原创 2020-08-30 14:56:57 · 699 阅读 · 1 评论 -
python爬虫之动态加载获取药品监督管理局
本次爬取使用request模块爬取国家药品监督管理局的数据并存入到Excel表格中爬取目标网站 http://scxk.nmpa.gov.cn:81/xk/#分析页面:打开网页F12上下翻页可知页面数据都是通过ajax动态加载出来的数据,并且首页中的数据只包含了企业名称、许可证编号等信息,但不包含企业的详细信息,下图为首页页面。若要得到企业的详细信息只能通过点击超链接查看,通过F12可以看出此处请求是通过企业id获取企业详细信息爬取思路:首先准备一个list集合用于存储所有企业的id,第一次原创 2020-08-20 20:44:40 · 4399 阅读 · 3 评论 -
python爬虫之使用Selenium爬取淘宝商品信息
学了点Python基础后,跟着视频学了点爬虫。 此代码是爬取淘宝美食信息并且存储到Mongodb,可以根据输入不同的关键字,爬取各种淘宝商品 爬取的过程中还遇到了一些坑 比如执行borwser = webdriver.Chrome()的时候抛出了Message: ‘chromedriver’ executable needs to be in PATH.Please see …”异常,后来...原创 2018-08-07 19:57:02 · 261 阅读 · 0 评论