python 爬虫
该专栏主要编写 爬虫学习笔记
Late whale
这个作者很懒,什么都没留下…
展开
-
python爬虫之 unicode字符转为中文&解决AttributeError: ‘str‘ object has no attribute ‘decode‘
文章目录前言Unicode简介Unicode转为中文AttributeError: 'str' object has no attribute 'decode'解决方法最后前言今天在爬取2345天气数据时,经过漫长的操作发现爬取到的却是unicode字符,形如\u591a\u4e91都是Unicode字符,查询资料后发现python中unicode转为中文很简单,这里记录一下,方便以后使用。Unicode简介Unicode是一个编码方案,Unicode 是为了解决传统的字符编码方案的局限而产生原创 2020-07-27 17:24:27 · 4242 阅读 · 2 评论 -
爬取淘宝任意商品数据,你上你也行
构造url第一页urlhttps://s.taobao.com/search?q="面膜"第二页urlhttps://s.taobao.com/search?q="面膜"&bcoffset=4&p4ppushleft=2%2C48&s=44&ntoffset=4第三页urlhttps://s.taobao.com/search?q="面膜"&bcoffset=1&p4ppushleft=2%2C48&ntoffset=1&a原创 2020-07-17 08:56:37 · 3163 阅读 · 4 评论 -
python爬虫工程师 成长之路十 selenium+phantomjs+request爬取lol所有英雄头像和装备图片
文章目录爬取所有英雄头像爬取所有英雄头像1.选择爬取目标这里我们选择https://lol.qq.com/data/info-heros.shtml英雄联盟英雄资料2. 寻找图片位置通过浏览器的检查功能,寻找图片所在位置观察发现所有英雄头像都处于"<img src="">"里面所以,构建正则表达式如下pattern1='<img src="...原创 2020-03-14 23:01:01 · 1531 阅读 · 0 评论 -
python爬虫工程师 成长之路九 PhantomJS
文章目录PhantomJS 介绍PhantomJS 安装phantomjs 简单使用selenium+phantomjs 处理jsPhantomJS 介绍PhantomJS是一个基于WebKit内核、无UI界面的浏览器,WebKit是一个开源的浏览器引擎。PhantomJS会把网站数据加载到内存中,并执行页面上的JavaScript,但不会向用户展示图形界面。PhantomJS ...原创 2020-03-14 22:58:31 · 522 阅读 · 0 评论 -
python爬虫工程师 成长之路八 Selenium WebDriver
文章目录Selenium WebDriver 简介Selenium WebDriver 原理Selenium WebDriver 安装Selenium WebDriver 使用浏览器常用操作单对象定位一组对象定位Selenium WebDriver 简介Selenium WebDriver是一个本地和远程的实时浏览器自动化工具,是最接近的模拟用户行为。WebDriver的目标是提...原创 2020-03-13 15:16:39 · 5091 阅读 · 2 评论 -
python爬虫工程师 成长之路七(二) Beautiful Soup4(二)
文章目录遍历文档树搜索文档树find_all(name,attrs,recursive,string,limit,**kwargs)find_all(name,attrs,recursive,string,**kwargs)find_parents( name , attrs , recursive , string , **kwargs )find_parent( name , attrs , ...原创 2020-03-10 23:09:23 · 654 阅读 · 1 评论 -
python爬虫工程师 成长之路七(一) Beautiful Soup4(一)
文章目录Beautiful Soup4 简介Beautiful Soup4 四大对象BeautifulSoup4将复杂HTML文档转换成一个树形结构,每个节点都是Python对象,所有对象可以归纳为4种:Beautiful Soup4 简介BeautifulSoup4和 lxml 一样是一套HTML/XML数据分析、清洗和获取工具,主要的功能也是如何解析和提取 HTML/XML 数据。Bea...原创 2020-03-09 22:01:41 · 719 阅读 · 0 评论 -
python爬虫工程师 成长之路六(三) Scrapy框架基础
文章目录Scrapy框架介绍Scrapy爬虫项目创建Scrapy项目目录结构Scrapy项目items的编写Scrapy框架介绍Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了...原创 2020-03-24 17:47:18 · 251 阅读 · 0 评论 -
python爬虫工程师 成长之路六(二) 非结构化数据之lxml库
文章目录lxml库 介绍lxml库 使用lxml库 介绍lxml是一个使用python编写的库,处理XML非常方便,另外还支持XPath,(上篇博客的XPath派上用处了XPath 基础入门)lxml库 使用没有lxml库的直接pip安装即可,导入lxml包出错则说明没安装from lxml import etree基本方法lxml.HTML(text):将text中的文...原创 2020-03-05 22:02:33 · 697 阅读 · 0 评论 -
python爬虫工程师 成长之路六(一) 非结构化数据之XPath
文章目录XPath 介绍XPath 节点XPath 语法路径表达式谓语通配符选取若干路径XPath 轴步(step)XPath 运算符XPath 介绍XPath(XML Path Language)是XML路径语言用来,定位XML中某部分的位置XPath 节点在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点...原创 2020-03-05 20:53:32 · 5089 阅读 · 0 评论 -
python爬虫工程师 成长之路五(二) 多线程爬虫
文章目录多线程爬虫介绍多线程介绍多线程爬虫实战多线程爬虫介绍在之前博客里(链接如下)爬取京东商品图片时,爬取流程是依次进行的,这种执行流程称为单线程结构,单线程结构的爬虫称为单线程爬虫爬虫实战 爬取京东商城图片多线程爬虫:爬虫中某部分程序可以并行执行,即多线程结构的执行流程称为多线程爬虫多线程介绍python中可以通过导入threading模块来使用多线程import ...原创 2020-03-04 17:07:17 · 686 阅读 · 1 评论 -
python爬虫工程师 成长之路五(一) 爬取京东商城图片
爬取京东图片原创 2020-03-03 17:51:47 · 1135 阅读 · 0 评论 -
python爬虫工程师 成长之路四 正则表达式与Cookie
正则表达式介绍正则表达式就是描述字符串排列的一种规则,其主要用于字符串的匹配,经常用于找到某一类符合格式要求的数据;在python中我们经常用re模块来实现正则表达式正则表达式基础原子原子是正则表达式最基本的组成单位,正则表达式至少包含一个一个原子,常见的原子有:普通字符非打印字符通用字符原子表普通字符普通字符如数字,字母,下划线等都可以作为原子,yes中含有三个原子:y、...原创 2020-03-01 18:26:48 · 700 阅读 · 1 评论 -
python爬虫工程师 成长之路三 URLlib库和URLError处理
文章目录URLlib库概述使用URLlib爬取网页urllib常用方法浏览器伪装获取浏览器Headers属性使用build_opener()修改报头使用add_header()添加报头超时设置http协议请求代理服务器设置DebugLogURLRrrorURLlib库概述URLlib是python提供的一个用于操作URL的模块,常用于爬取网页,python3.x中将python2.x中的URL...原创 2020-02-29 18:11:52 · 913 阅读 · 0 评论 -
常见的浏览器错误码(状态码)及其意义
服务器返回的状态码及其意义状态码意义200OK,一切正常301Moved Permanently,永久性地重定向到新URL302Found,暂时地重定向到新URL304Not Modified,请求的资源未更新400Bad Request,非法请求401Unauthorized,请求未经允许403Forbidden,禁止访问...原创 2020-02-29 17:49:18 · 953 阅读 · 0 评论 -
python爬虫工程师 成长之路二 爬虫原理与实现爬虫
文章目录爬虫原理详解通用爬虫聚焦爬虫爬取策略网页更新策略网页分析算法身份识别实现爬虫爬虫原理详解虽说不同的爬虫原理并不相同,但这些原理中还是会存在许多的共同之处;所以就以通用爬虫和聚焦爬虫讲解爬虫的实现原理通用爬虫获取初始的URL,初始URL地址可以由用户直接决定,也可以由用户指定的网页决定根据初始URL爬虫页面,爬取相应网页后将网页存储到原始数据库中,并将已爬取的URL地址存放到一个...原创 2020-02-29 02:18:09 · 1204 阅读 · 0 评论 -
python爬虫工程师 成长之路一 初识爬虫
文章目录爬虫爬虫分类通用爬虫聚焦爬虫爬虫爬虫,就是网络爬虫,也称为网页蜘蛛、网络机器人、网络蚂蚁等。搜索引擎,就是爬虫的应用者。爬虫分类通用爬虫常见的是搜索引擎,无差别的收集数据、存储、提取关键字,构建搜索引擎,给用户提供搜索接口。爬取流程初始化一批URL,将这些URL放到待爬取队列从待爬取队列中取出这些URL,通过DNS解析IP,对IP对应的站点下载HTML页面,保存到本...原创 2020-02-28 16:12:20 · 886 阅读 · 3 评论