![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
bus_lupe
这个作者很懒,什么都没留下…
展开
-
爬取淘宝数据
创建数据库mysql> create database taobao;创建表create table goods ( id title varchar(100), price varchar(100), link varchar(100), comment varchar(100))创建爬虫项目scrapy startproject tao...原创 2019-12-11 22:18:32 · 1045 阅读 · 0 评论 -
xpath表达式
正则表达式xpath表达式,运行效率比正则块,基于对应的标签提取信息。/ 从顶端依次往下寻找text() 提取文本信息@ 提取标签属性信息// 寻找所有的标签标签[@属性=值] 定位某一个标签/html/head/title/text() 提取title文本//li[@class=值]/a/@href...原创 2019-09-23 08:44:45 · 301 阅读 · 0 评论 -
Scrapy框架常见命令
全局命令fetch爬一个网页,并显示爬取过程scrapy fetch http://www.baidu.comrunspider不创建爬虫项目,也可以运行一个爬虫文件scrapy runspider .\hello.pyshell启动scrapy交互终端startproject创建一个scrapy爬虫项目view下载某个网页,并用浏览器查看scrapy view ht...原创 2019-09-22 22:39:04 · 145 阅读 · 0 评论 -
Scrapy框架的安装
Scrapy是一个Python爬虫框架,非常适合做一些大型爬虫羡慕,并且开发者利用这个框架,可以不用过多关注细节。Scrapy的官网地址是:http://scrapy.org/少坑版安装方式由于Scrapy框架涉及太多依赖库,在此,如果想省事的朋友,可以按照这种方式安装。开个VPN或者采用本地安装方式首先升级pip:python -m pip install --upgrade pip...原创 2019-09-22 21:19:35 · 74 阅读 · 0 评论 -
多线程爬虫实战
普通爬虫from urllib import request, errorimport reheaders = ('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0')opener = request.build_opener()opener.addh...原创 2019-09-22 17:28:42 · 109 阅读 · 0 评论 -
抓包分析实战爬取腾讯视频评论
from urllib import request, errorimport reimport json# 使用代理服务器def use_proxy(url, proxy_addr): # https://www.xicidaili.com/nn/ proxy = request.ProxyHandler({'http': proxy_addr}) opene...原创 2019-09-21 17:43:10 · 459 阅读 · 0 评论 -
fillder抓取https
fillder: tools > options > https2. actions > Export Root Certificate Manager将CA证书导出到桌面3. 打开火狐浏览器:选项 > 隐私与安全 > 证书 > 查看证书 > 证书颁发机构将桌面的CA证书导入...原创 2019-09-20 22:13:58 · 342 阅读 · 0 评论 -
爬取包图网图片
from urllib import request, errorimport re# 伪装浏览器请求headers = ('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/...原创 2019-09-20 09:16:13 · 853 阅读 · 0 评论 -
爬虫防屏蔽手段之代理服务器实战
使用代理服务器进行信息爬取,可以很好的解决IP限制的问题。代理IP地址:https://www.xicidaili.com/nn/代理IP遇到不能用的多尝试几个。from urllib import request, error# 使用代理服务器def use_proxy(url, proxy_addr): # https://www.xicidaili.com/nn/ ...原创 2019-09-12 12:58:47 · 634 阅读 · 0 评论 -
python新闻爬虫实战
新闻爬虫需求及实现思路需求:将新浪新闻首页(http://news.sina.com.cn/)所有新闻都爬到本地。思路:先爬首页,通过正则获取所有新闻链接,然后依次爬各种新闻,并存储到本地。代码from urllib import request, errorimport redata = request.urlopen('https://news.sina.com.cn/').re...原创 2019-09-12 11:03:22 · 351 阅读 · 0 评论 -
浏览器伪装
服务器根据User-Agent判断是爬虫还是浏览器from urllib import requesturl = 'https://blog.csdn.net/liona_koukou/article/details/74391977'header = ('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) A...原创 2019-09-11 23:09:37 · 280 阅读 · 0 评论 -
爬虫异常处理
状态码含义200(成功)(成功) 服务器已成功处理了请求。 通常,这表示服务器提供了请求的网页301(永久移动)请求的网页已永久移动到新位置。服务器返回此响应(对 GET 或 HEAD 请求的响 应)时,会自动将请求者转到新位置。302(临时移动)服务器目前从不同位置的网页响应请求,但请求者应继续使用原有位置来响应以后的请求。304 ( 未 修改)自从...原创 2019-09-11 22:40:38 · 135 阅读 · 0 评论 -
自动模拟HTTP请求
默认不支持https,必须使用http中文需要使用quote转码from urllib import request# 中文需要quote编码keywd = request.quote('张路标')# 注意,是不支持https的,否则出错url = 'http://www.baidu.com/s?ie=utf-8&tn=93153557_hao_pg&wd=' + k...原创 2019-09-11 21:49:39 · 506 阅读 · 0 评论 -
超时设置
timeoutfrom urllib import requestfile = request.urlopen('http://www.hellobi.com', timeout=1)测试,设置好timeoute可以提高爬虫效率from urllib import requestfor i in range(0, 200): try: file = reque...原创 2019-09-11 21:25:58 · 210 阅读 · 0 评论 -
urllib模块
urlretrievefrom urllib import request# urlretrieve(url, filename)# 直接将网页下载到本地的某个地方# url,爬取的网站地址# filename,爬取的内容本地存储路径request.urlretrieve('http://www.hellobi.com', filename="test1.html")urlclea...原创 2019-09-11 21:08:43 · 179 阅读 · 0 评论 -
爬虫正则表达式
什么是正则表达式原子元字符贪婪模式与懒惰模式正则表达式函数常见正则实例简单的爬虫从网页中提取出QQ群作业:提取出版社信息并写入文件中...原创 2019-09-11 15:21:39 · 475 阅读 · 0 评论 -
网络爬虫能做什么事情
网络爬虫就是自动从互联网中定向或不定向地采集信息的程序。通用网络爬虫、聚焦网络爬虫。网络爬虫能做什么事情搜索引擎采集金融数据采集商品数据自动过滤广告采集竞争对手的客户数据采集行业相关数据,进行数据分析...原创 2019-09-11 09:04:32 · 483 阅读 · 0 评论 -
python使用panda合并两个excel
合并excel需要先将excel另存为csv格式的文件,再使用panda的append方法进行合并,最后输入。将excel另存为csv格式我使用的wps,直接打开excel文件,点击文件,点击另存为,点击其他格式。文件类型选择csv,点击保 使用panda读取两个csv文件并合并后输出import pandas as pdpd.set_option('expand_fram...原创 2019-09-10 17:58:53 · 1702 阅读 · 0 评论 -
学习目标
成为Python网络爬虫工程师成为Python数据分析(数据挖掘)工程师课程大纲原创 2019-09-10 17:42:02 · 73 阅读 · 0 评论