Python 爬虫
文章平均质量分 66
肖朋伟
订阅号:JavaJobs
展开
-
Python 实用爬虫-03-爬取视频教程课程名+链接+下载图片
实用爬虫-03-爬取视频教程课程名+链接+下载图片很长时间不写爬虫的学习笔记了,想到用爬虫来动态的更新数据,简单的搭一个页面的框架,加上爬虫获取数据,岂不是省了自己建库又有了优质的数据源当然我们写爬虫不能过分的爬取,有些涉及原创的东西,最好不好私自爬取,好,政治正确哈一、爬虫的目的:二、注意事项:下载图片,我是放在了 pic 目录下,需要自己创建和 Python 文件同级的目录三、不...原创 2018-10-29 21:45:00 · 4649 阅读 · 0 评论 -
Python爬虫教程-21-xpath简介
本篇简单介绍 xml 在python爬虫方面的使用,想要具体学习 xpath 可以到 w3school 查看 xpath 文档 xpath文档:http://www.w3school.com.cn/xpath/index.aspPython爬虫教程-21-xpath什么是 XPath?XPath 使用路径表达式在 XML 文档中进行导航XPath 包含一个标准函数库XPa...原创 2018-08-29 18:59:02 · 12627 阅读 · 0 评论 -
Python爬虫教程-20-xml简介
本篇简单介绍 xml 在python爬虫方面的使用,想要具体学习 xml 可以到 w3school 查看 xml 文档 xml 文档链接:http://www.w3school.com.cn/xmldom/xmldom_reference.aspPython爬虫教程-19-数据提取-xmlXML(Extensible Markup Language) 可扩展标记语言,标准通用标记语言的...原创 2018-08-29 18:23:43 · 12041 阅读 · 1 评论 -
Python爬虫教程-19-数据提取-正则表达式(re)
本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式Python爬虫教程-19-数据提取-正则表达式(re)正则表达式:一套规则,可以在字符串文本中进行搜查替换等正则的常用方法: match:从开始位置开始查找,一次匹配,即1次匹配成功则退出search:从任何位置开始查找,一次匹配findall:全部...原创 2018-08-29 12:06:04 · 20977 阅读 · 0 评论 -
Python爬虫教程-18-页面解析和数据提取
本篇针对的数据是已经存在在页面上的数据,不包括动态生成的数据,今天是对HTML中提取对我们有用的数据,去除无用的数据Python爬虫教程-18-页面解析和数据提取结构化数据:先有的结构,再谈数据 json数据 1.处理此类数据,通常使用JSON Path2.转换成python类型的数据,再进行操作(json类)XML文件 转换成python类型(xmltodict)XPath...原创 2018-08-29 12:05:53 · 13449 阅读 · 0 评论 -
Python爬虫教程-28-Selenium 操纵 Chrome
Python爬虫教程-28-Selenium 操纵 Chrome我觉得本篇是很有意思的,闲着没事来看看!PhantomJS 幽灵浏览器,无界面浏览器,不渲染页面。Selenium + PhantomJS 在之前是很完美的搭配。后来在 2017 年 Google 宣布 Chrome 也宣布支持不渲染。所以 PhantomJS 使用的人就越来越少了,挺可惜,本篇介绍 Selenium + Chro...原创 2018-08-31 21:16:07 · 14745 阅读 · 0 评论 -
Python爬虫教程-27-Selenium Chrome版本与chromedriver兼容版本对照表
我们使用Selenium+Chrome时,版本不一样, 会导致 chromedriver 停止运行 chromedriver 所有版本下载链接:http://npm.taobao.org/mirrors/chromedriver/2.39/ 请根据下面表格下载支持自己 Chrome 的版本Selenium Chrome版本与chromedriver兼容版本对照表 Chro...原创 2018-08-31 19:46:18 · 13613 阅读 · 0 评论 -
Python爬虫教程-26-Selenium + PhantomJS
Python爬虫教程-26-Selenium + PhantomJS动态前端页面 : JavaScript: JavaScript一种直译式脚本语言,是一种动态类型、弱类型、基于原型的语言,内置支持类型。它的解释器被称为JavaScript引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在HTML(标准通用标记语言下的一个应用)网页上使用,用来给HTML网页增加动态功能jQue...原创 2018-08-31 11:52:35 · 11620 阅读 · 0 评论 -
Python爬虫教程-25-数据提取-BeautifulSoup4(三)
Python爬虫教程-25-数据提取-BeautifulSoup4(三)本篇介绍 BeautifulSoup 中的 css 选择器css 选择器使用 soup.select 返回一个列表通过标签名称:soup.select(“title”)通过类名:soup.select(“.centent”)id 查找:soup.select(“#name_id”)组合查找:soup.se...原创 2018-08-31 10:37:56 · 11987 阅读 · 0 评论 -
Python爬虫教程-22-lxml-etree和xpath配合使用
Python爬虫教程-21-lxml-etree和xpath配合使用lxml:python 的HTML/XML的解析器官网文档:https://lxml.de/使用前,需要安装安 lxml 包 功能: 1.解析HTML:使用 etree.HTML(text) 将字符串格式的 html 片段解析成 html 文档2.读取xml文件3.etree和XPath 配合使用lxml ...原创 2018-08-29 20:26:25 · 25277 阅读 · 0 评论 -
Python爬虫教程-29-验证码识别-Tesseract-OCR
本篇是关于验证码识别问题,也是Python爬虫笔记的一个结尾,使用 TesseractPython爬虫教程-29-验证码识别-Tesseract-OCR常见反爬虫手段: 验证码 1.简单图片,扭曲数字验证码2.中文顺序点击3.动态验证码4.滑动验证:滑动小方块到缺口5.语音验证6.极验验证:官网:http://www.geetest.com/ 根据鼠标轨迹,判定是机器...原创 2018-09-01 11:37:41 · 14505 阅读 · 0 评论 -
Python爬虫教程-31-创建 Scrapy 爬虫框架项目
本篇是介绍在 Anaconda 环境下,创建 Scrapy 爬虫框架项目的步骤,且介绍比较详细Python爬虫教程-31-创建 Scrapy 爬虫框架项目首先说一下,本篇是在 Anaconda 环境下,所以如果没有安装 Anaconda 请先到官网下载安装Anaconda 下载地址:https://www.anaconda.com/download/Scrapy 爬虫框架...原创 2018-09-04 20:22:59 · 15956 阅读 · 0 评论 -
Python 实用爬虫-01-检测爬虫的 IP
实用爬虫-01-检测爬虫的 IP本篇介绍一个识别爬虫 ip 的小实例(教你一招识破无效的 ip 代理)【注意事项】:1.url 可能会失效(个人感觉,因为它带了一个2018,下面附上链接获取方法)2.当然使用的时候,只需两步:(1)把你的爬虫的 url 换成下面的 url,目前是:http://2018.ip138.com/ic.asp(2)把 decode() 方法的参数要设...原创 2018-10-29 21:40:34 · 2854 阅读 · 0 评论 -
Python爬虫教程-36-怎么实现在同一行重新输出(已解决)
本篇介绍如何实现删除上一行,在一行更新输出的效果Python爬虫教程-36-在一行更新输出Python 中 print() 函数默认以 \n 结束我们想要实现循环时在一行更新输出,就需要删除上一行输出,显然 print() 函数默认以 \n 结束,我们就不能直接用 end = “\r” 来实现怎样实现删除上一行呢打印的内容?解决方法:1.既然以 \n 结束,不能再使用 ...原创 2018-09-15 10:59:56 · 17226 阅读 · 0 评论 -
Python爬虫教程-30-Scrapy 爬虫框架介绍
从本篇开始学习 Scrapy 爬虫框架Python爬虫教程-30-Scrapy 爬虫框架框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了常见爬虫框架: scrapypyspidercrawleyScrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中S...原创 2018-09-03 23:41:54 · 12323 阅读 · 0 评论 -
Python爬虫教程-34-分布式爬虫介绍
Python爬虫教程-34-分布式爬虫介绍分布式爬虫在实际应用中还算是多的,本篇简单介绍一下分布式爬虫什么是分布式爬虫分布式爬虫就是多台计算机上都安装爬虫程序,重点是联合采集。单机爬虫就是只在一台计算机上,叫做单机。前嗅的 ForeSpider 数据采集系统就有单机和服务器版,比如只在一台服务器上的爬虫,虽然开了多进程,但还是服务器单机的。但是如果在多个服务器上,并且能够协同采集...原创 2018-09-05 21:51:06 · 11810 阅读 · 1 评论 -
Python爬虫教程-33-scrapy shell 的使用
本篇介绍使用Scrapy爬虫框架,爬取智联招聘招聘信息Python爬虫教程-33-scrapy shell的使用及Scrapy爬虫框架实例scrapy shell 的使用条件:我们需要先在环境中,安装 scrapy 包,如果还没有安装,请参照:Python爬虫教程-30-Scrapy 爬虫框架介绍当我们...原创 2018-09-05 14:20:18 · 12902 阅读 · 0 评论 -
Python爬虫教程-23-数据提取-BeautifulSoup4(一)
Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据,查看文档 https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/Python爬虫教程-23-数据提取-BeautifulSoup4Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能它是一个...原创 2018-08-30 10:45:52 · 13713 阅读 · 1 评论 -
Python爬虫教程-32-Scrapy 爬虫框架项目 Settings.py 介绍
本篇介绍项目开发的过程Python爬虫教程-32-Scrapy 爬虫框架项目实例settings.py 文件的使用在 settings.py 文件中很多东西默认是给注释掉的,当我们需要使用的时候,删掉你需要使用的模块的前面 # 符号就可以了 例如: 我们想使用 USER_AGENT 在 settings.py 文件中找到...原创 2018-09-04 22:15:31 · 14100 阅读 · 0 评论 -
Python爬虫教程-24-数据提取-BeautifulSoup4(二)
Python爬虫教程-24-数据提取-BeautifulSoup4(下)本篇介绍 bs 如何遍历一个文档对象遍历文档对象contents:tag 的子节点以列表的方式输出children:子节点以迭代器形式返回descendants:所有子孙节点string:用string打印出标签的具体内容,不带有标签,只有内容案例代码27bs3.py文件:https://xpwi.g...原创 2018-08-30 20:57:46 · 11719 阅读 · 0 评论 -
Python爬虫教程-17-ajax爬取实例(豆瓣电影)
Python爬虫教程-17-ajax爬取实例(豆瓣电影)ajax: 简单的说,就是一段js代码,通过这段代码,可以让页面发送异步的请求,或者向服务器发送一个东西,即和服务器进行交互对于ajax:1.一定会有 url,请求方法(get, post),可能有数据2.一般使用 json 格式爬取豆瓣电影网站分析: 打开豆瓣电影网站:https://movie.douba...原创 2018-08-26 13:07:39 · 13046 阅读 · 2 评论 -
Python爬虫教程-05-python爬虫实现百度翻译
使用python爬虫实现百度翻译功能python爬虫实现百度翻译: python解释器【模拟浏览器】,发送【post请求】,传入待【翻译的内容】作为参数,获取【百度翻译的结果】通过开发者工具,获取发送请求的地址提示: 翻译内容发送的请求地址,绝对不是打开百度翻译的那个地址,想要抓取地址,就要借助【浏览器的开发者工具】,或者其他抓包工具下面介绍获取请求地址的具体方法以Chro...原创 2018-08-11 20:48:39 · 19128 阅读 · 13 评论 -
Python爬虫教程-35-编程常见问题解决方法
Python爬虫编程常见问题解决方法:1.通用的解决方案:【按住Ctrl键不送松】,同时用鼠标点击【方法名】,查看文档2.TypeError: POST data should be bytes, an iterable of bytes, or a file object. It cannot be of type str. 问题描述:【类型错误】就是数据的类型应该是bytes类型,而...原创 2018-08-14 20:17:55 · 10212 阅读 · 1 评论 -
Python爬虫教程-07-post介绍(百度翻译)(上)
Python爬虫教程-07-post介绍(上)访问网络两种方法 get: 利用参数给服务器传递信息参数为dict,使用parse编码post :(今天给大家介绍的post) 一般向服务器传递参数使用post是把信息自动加密处理使用post传递信息,需要用到data参数使用post意味着http的请求头信息可能需要更改: Content-Type:application/x-...原创 2018-08-14 20:02:09 · 12008 阅读 · 1 评论 -
Python爬虫教程-04-response简介
Spider-04-response简介本小节介绍urlopen的返回对象,和简单调试方法案例v3研究request的返回值,输出返回值类型,打印内容geturl:返回请求对象的urlinfo:请求返回对象的meta信息getcode:返回的http codepy04v3.py文件:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/...原创 2018-08-06 20:11:56 · 13229 阅读 · 1 评论 -
Python爬虫教程-03-使用chardet
Spider-03-使用chardet继续学习python爬虫,我们经常出现解码问题,因为所有的页面编码都不统一,我们使用chardet检测页面的编码,尽可能的减少编码问题的出现网页编码问题解决使用chardet 可以自动检测页面文件的编码格式,但是也有可能出错需要安装chardet, 如果使用Anaconda环境,使用下面命令: conda install chardet如...原创 2018-08-06 11:20:41 · 14288 阅读 · 7 评论 -
Python爬虫教程-02-使用urlopen
Spider-02-使用URLopen做一个最简单的python爬虫,使用爬虫爬取:智联招聘某招聘信息的DOMurllib包含模块 urllib.request:打开和读取urlsurllib.error:包含urllib.request产生的常见错误,使用try捕捉urllib.parse:包含解析url的方法urllib.robotparse:解析robots.txt文件...原创 2018-08-05 20:22:19 · 17054 阅读 · 15 评论 -
Python爬虫教程-01-爬虫介绍
Spider-01-爬虫介绍Python 爬虫的知识量不是特别大,但是需要不停和网页打交道,每个网页情况都有所差异,所有对应变能力有些要求爬虫准备工作参考资料精通Python爬虫框架Scrapy,人民邮电出版社基础知识url, httpweb前端,html,css,jsajaxre,xpathxmlpython 爬虫简介爬虫定义:网络爬虫(又被称...原创 2018-08-05 11:58:16 · 22493 阅读 · 2 评论 -
Python爬虫教程-06-爬虫实现百度翻译(requests)
使用python爬虫实现百度翻译(requests)python爬虫上一篇介绍了怎么使用浏览器的【开发者工具】获取请求的【地址、状态、参数】以及使用python爬虫实现百度翻译功能【urllib】版上一篇链接:https://blog.csdn.net/qq_40147863/article/details/81590849本篇介绍使用python爬虫实现百度翻译功能【request...原创 2018-08-11 21:15:21 · 12822 阅读 · 3 评论 -
Python爬虫教程-08-post介绍(百度翻译)(下)
Python爬虫教程-08-post介绍(下)为了更多的设置请求信息,单纯的通过urlopen已经不太能满足需求,此时需要使用request.Request类构造Request 实例req = request.Request(url=baseurl,data=data,headers=header)发出请求rsp = request.urlopen(req)文件:案...原创 2018-08-15 11:18:46 · 9239 阅读 · 1 评论 -
Python爬虫教程-09-error模块
Python爬虫教程-09-error模块今天的主角是error,爬取的时候,很容易出现错,所以我们要在代码里做一些,常见错误的处,关于urllib.errorURLErrorURLError 产生的原因: 1.无网络连接2.服务器连接失败3.找不到指定的服务器4.URLError是OSError的子类案例v9文件:#案例v9# URLError的使用from ...原创 2018-08-15 18:20:39 · 9040 阅读 · 1 评论 -
Python爬虫教程-16-破解js加密实例(有道在线翻译)
python爬虫教程-16-破解js加密 在爬虫爬取网站的时候,经常遇到一些反爬虫技术,比如: 加cookie,身份验证UserAgent图形验证,还有很难破解的滑动验证js签名验证,对传输数据进行加密处理对于js加密 经过加密传输的就是密文,但是加密函数或者过程一定是在浏览器完成, 也就是一定会把js代码暴露给使用者通过阅读加密算法,就可以模拟出加密过程,从而达到破解怎样判...原创 2018-08-26 12:40:41 · 20985 阅读 · 13 评论 -
Python爬虫教程-15-读取cookie(人人网)和SSL(12306官网)
Python爬虫教程-15-爬虫读取cookie文件上一篇写道关于存储cookie文件,本篇介绍怎样读取cookie文件cookie的读取案例v16ssl文件:https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py16loadcookie.py# 读取cookie文件from urllib import request,parse...原创 2018-08-19 10:54:42 · 9635 阅读 · 2 评论 -
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(人人网)(下)
Python爬虫教程-13-爬虫使用cookie爬取登录后的页面(下)自动使用cookie的方法,告别手动拷贝cookiehttp模块包含一些关于cookie的模块,通过他们我们可以自动的使用cookie CookieJar 管理存储Cookie,向传出的http请求添加cookie这里Cookie存储在内存中,CookieJar实例回收后cookie将消失FileCookieJ...原创 2018-08-16 20:02:37 · 14861 阅读 · 5 评论 -
python写入html文件中文乱码-解决办法
python写入html文件中文乱码问题使用open函数将爬虫爬取的html写入文件,有时候在控制台不会乱码,但是写入文件的html中的中文是乱码的案例分析看下面一段代码:# 爬虫未使用cookiefrom urllib import requestif __name__ == '__main__': url = "http://www.renren.com/96...原创 2018-08-16 18:05:29 · 21939 阅读 · 1 评论 -
Python爬虫教程-12-爬虫使用cookie爬取登录后的页面(人人网)(上)
Python爬虫教程-12-爬虫使用cookie(上)·爬虫关于cookie和session,由于http协议无记忆性,比如说登录淘宝网站的浏览记录,下次打开是不能直接记忆下来的,后来就有了cookie和session机制。Python爬虫爬取登录后的页面所以怎样让爬虫使用验证用户身份信息的cookie呢,换句话说,怎样在使用爬虫的时候爬取已经登录的页面呢,这就是本篇的重点cook...原创 2018-08-16 14:34:16 · 18710 阅读 · 3 评论 -
Python爬虫教程-11-proxy代理IP,隐藏地址(猫眼电影)
Python爬虫教程-11-proxy代理IP,隐藏地址ProxyHandler处理(代理服务器),使用代理IP,是爬虫的常用手段,通常使用UserAgent 伪装浏览器爬取仍然可能被网站封了IP,但是我们使用代理IP就不怕它封了我们的IP了获取代理IP的的网站:www.goubanjia.comwww.xicidaili.com使用代理来隐藏真实访问中,代理也不允许频繁访问...原创 2018-08-16 11:48:31 · 17468 阅读 · 2 评论 -
Python爬虫教程-14-爬虫使用filecookiejar保存cookie文件(人人网)
Python爬虫教程-14-爬虫使用filecookiejar保存cookie文件上一篇介绍了利用CookieJar访问人人网,本篇将使用filecookiejar将cookie以文件形式保存自动使用cookie登录,使用步骤: 1.打开登录页面后,通过用户名密码登录2.自动提取反馈回来的cookie3.利用提取的cookie登录个人信息页面 创建cookiejar实例生成c...原创 2018-08-18 18:26:30 · 11475 阅读 · 1 评论 -
Python爬虫教程-10-UserAgent和常见浏览器UA值
Python爬虫教程-10-UserAgent和常见浏览器UA值有时候使用爬虫会被网站封了IP,所以需要去模拟浏览器,隐藏用户身份,UserAgent包含浏览器信息,用户身份,设备系统信息UserAgent:用户代理,简称UA,属于headers的一部分,服务器通过UA来判断访问者身份使用方法:复制粘贴即可案例v10UA文件:https://xpwi.github.io/py/...原创 2018-08-15 20:07:57 · 15082 阅读 · 0 评论 -
Python爬虫教程-00-写在前面
鉴于好多人想学Python爬虫,缺没有简单易学的教程,我将在CSDN和大家分享Python爬虫的学习笔记,不定期更新基础要求Python 基础知识 Python 的基础知识,大家可以去菜鸟教程进行学习菜鸟教程python基础 http://www.runoob.com/python/python-tutorial.htmlPython 高级语法 菜鸟教程python高级 ht...原创 2018-08-05 10:49:03 · 20009 阅读 · 1 评论