![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
AI-Rui
对计算有强烈热爱的同学
展开
-
python爬虫+数据分析相关技巧(持续更新....)
Python pandas 读取文件——读取具有明显分隔符的数据原创 2020-05-29 13:59:56 · 325 阅读 · 0 评论 -
(三)、正确安装scrapy框架
(三). 正确安装scrapy框架 1.scrapy框架介绍 scrapy是python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点病虫页面中提取结构化的数据。scrapy用途广泛,常用于数据挖掘、监测和自动化测试。 2.scrapy框架的安装 (1)先安装Twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/ 我这里安装的版...原创 2019-04-21 11:22:53 · 172 阅读 · 0 评论 -
(一)实现爬虫的简单思路
(一)写爬虫的一些套路 1. 准备url 1.1 准备start_url (1) url地址规律不明显,或总数不确定时 李毅贴吧,点击下一页时,对应的url地址的pn会增加50,但不确定李毅吧的总数是多少,故需要准备start_url start_url = https://tieba.baidu.com/f?kw={}&ie=utf-8&pn={} 使用 start_url.fo...原创 2019-04-14 13:54:48 · 1055 阅读 · 0 评论 -
(二)单线程爬虫与多线程爬虫的效率对比
多线程爬虫与单线程爬虫的效率对比 1.什么是进程? 当一个程序正在运行时,它就是一个进程,进程包括运行中的程序和程序所使用到的内存和系统资源,而一个进程又包含多个线程。 2.线程是什么? 线程是程序中的一个执行流,每个线程都有自己专有的寄存器(栈指针、程序计数器等),但一个进程内的多个线程是共享代码区的,也就是同一个函数可以被多个线程所执行。 3.多线程是什么? 多线程一般指的是同一个程序的多个执...原创 2019-04-19 23:06:33 · 2681 阅读 · 6 评论