爬虫系列(个人学习过程)
Mr.Shawn
python小白,自学爬虫
展开
-
python_spider 03 requsets 模块的使用
requsets 个人觉得系统自带的库不好用,以前学过自动自带的urblib 和request 库…想学隔壁转弯自学.学就从这个库开始学习一:reuqests 库的get 和post请求知识点:>:1 想要发送什么请求就调用什么请求的方法>:2response 的属性 response.text() # 获取文本 response.content() #以2...原创 2019-02-27 22:57:06 · 682 阅读 · 0 评论 -
python_spider 08 Json模块与json格式
数据的存储格式 JSON 和Python 中的 json 模块。JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。JSON和XML的比较可谓不相上下。Python 中自带了JSON模块,直接import json就可以使用了...原创 2019-08-06 11:19:22 · 239 阅读 · 0 评论 -
python-spider 07 Beautiful Soup(bs4 基础解析方法)
Beautiful Soup–bs4 也是一个厉害的网络解析库Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。pip instal...原创 2019-08-06 11:09:38 · 178 阅读 · 0 评论 -
python_spider 06 XPATH,基础解析方法
XML解析神奇-- XPath。需要先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。什么是XMLXML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记语言,很类似 HTMLXML 的设计宗旨是传输数据,而非显示数据XML 的标签需要我们自行定义。XML 被设计为具有自我描述性。XML 是 W3C 的...原创 2019-08-06 10:53:28 · 156 阅读 · 0 评论 -
python_spider 05 RE,正则表达式实战
我们要爬取的网站链接是 https://www.qiushibaike.com/text/page/1/ 。糗事百科我们要爬取的是里面的糗事,在之前的文章中我们已经可以爬取整个 url 链接里的 html 内容,那么我们就可以根据爬取到的 html 代码,再通过 re 模块匹配我们想要的内容即可。我们通过调用开发者工具检查 HTML 元素发现我们想要的内容在 … 内,根据这个我们可...原创 2019-08-06 10:40:39 · 140 阅读 · 0 评论 -
python_spider 04 网页解析(re 正则表达式)
什么是正则表达式正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。Python 的 re 模块在 Python 中,我们可以使用内置的 re 模块来使用正则表达式。有一点需要特别注意的是...原创 2019-08-05 18:04:35 · 313 阅读 · 0 评论 -
python_spider 02-爬虫流程
爬虫的基本流程发起请求—获取响应—解析内容—保存数据向目标站点发起请求,就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应服务器能正常响应,会得到一个Response,页面内容类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件什么是Request,ResponseHTP...翻译 2019-08-05 17:56:33 · 156 阅读 · 0 评论 -
python_spider 01-概念讲解
通用爬虫和聚焦爬虫(垂直爬虫)通用爬虫通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。简单地说就是爬虫不管三七二十一,把能爬的数据全部都采集下来,没有特殊目标数据之分。通用搜索引擎(Search Engine)工作原理1. 抓取网页首先选取一部分的种子URL,将这些URL放入待...原创 2019-08-05 17:26:07 · 305 阅读 · 0 评论 -
史上最简单的多线程爬小说
import requestsimport threadingimport queuefrom lxml import etreeimport timeQ = queue.Queue()class A(threading.Thread): def __init__(self): threading.Thread.__init__(self) ...原创 2019-02-28 09:30:31 · 556 阅读 · 0 评论 -
Tesseract-OCR+jTessBoxEditor训练字库或图形验证码
安装安装tesserocr.exe文件,配置环境变量pip install tesserocr安装java jdk 配置环境变量jTessBoxEditor安装具体安装参考网络资料划重点!!!还要单独新建一个环境变量,最好两个都新建,用户的环境变量和系统环境变量名字:TESSDATA_PREFIX路径是:Tesseract-ORC下的tessData文件夹检查是否安装成功:...原创 2019-09-27 14:15:59 · 605 阅读 · 0 评论