python爬虫学习笔记
文章平均质量分 96
qq_37232731
这个作者很懒,什么都没留下…
展开
-
python学习笔记——列表生成式的使用
列表生成式12个案列前言Python 里使用 [] 创建一个列表。容器类型的数据进行运算和操作,生成新的列表最高效的办法——列表生成式。列表生成式优雅、简洁,值得多多使用!基础部分1. 数据再运算实现对每个元素的乘方操作后,利用列表生成式返回一个新的列表。In [1]: a = range(0,11)In [2]: b = [x**2 for x in a] # 利用列表生成式创建列表In [3]: bOut[3]: [0, 1, 4, 9, 16, 25, 36, 49, 64,原创 2020-07-02 20:19:55 · 478 阅读 · 0 评论 -
python常用包介绍
前言Python 拥有许多强大的扩展包,为 Web 开发者、数据分析从业人员、机器学习工程师,快速构建模型提供便利。1、Web、爬虫、打包工具DjangoDjango 是最通用的 Web 开发框架之一,可以帮助开发者从零创造一个全功能的大型 Web 应用程序。FlaskFlask 是一个轻量级的 WSGI Web 应用框架,适合搭建轻量级的 Web 应用程序;容易上手,被广大 Python 开发者所喜爱。FastAPIFastAPI 是一个现代、高性能 Web 框架,用于构建 APIs,基于原创 2020-07-02 08:01:22 · 479 阅读 · 0 评论 -
python爬虫学习笔记——浏览器伪装技术
一、网站常见的反爬虫和应对方法一般网站从三个方面反爬虫:用户请求的Headers,用户行为,网站目录和数据加载方式。前两种比较容易遇到,大多数网站都从这些角度来反爬虫。第三种一些应用ajax的网站会采用,这样增大了爬取的难度。1.0、 Headers反爬虫问题本质从用户请求的Headers反爬虫是最常见的反爬虫策略。很多网站都会对Headers的User-Agent进行检测,还有一部分网站会对Referer进行检测(一些资源网站的防盗链就是检测Referer)。1.1、Headers反原创 2020-06-29 11:29:55 · 296 阅读 · 0 评论 -
python爬虫笔记——验证码信息识别
(如果验证码识别较麻烦,可以采取半自动化操作:代码+人工进行验证码识别操作)普通验证码的识别1、前言OCR 即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。tesserocr 是Python的一个OCR识别库。GitHub:https://github.com/tesseract-ocr/tesseract2、软件安装:模块安装:pip install tesserocr #安装tesserocr原创 2020-06-23 16:02:26 · 476 阅读 · 0 评论 -
python爬虫笔记——Selenium的初级使用
一、动态渲染页面爬取1、背景问题对于访问Web时直接响应的数据(就是response内容可见(不是ajax加载或者被渲染过的数据)),我们使用urllib、requests或Scrapy框架爬取。对于一般的JavaScript动态渲染的页面信息(Ajax加载),我们可以通过抓包分析Ajax请求地址来抓取信息。Ajax = 异步 JavaScript 和 XML(标准通用标记语言的子集)。Ajax 是一种用于创建快速动态网页的技术。Ajax 是一种在无需重新加载整个网页的情况下,能够更新部分网原创 2020-06-23 12:43:27 · 875 阅读 · 0 评论 -
网络爬虫之XPath、Beautiful Soup、PyQuery的使用
网络爬虫解析库的引入之前基于re正则,比较繁琐,出错率较高爬取信息大多基于html结构的web页面, 网页节点较多,各种层级关系。常见的Python解析库XPath: 基于XML文档,包含html查找功能 官方文档Beautiful Soup: 依赖于lxml的解析库官方文档PyQuery: Python仿照jQuery严格实现官方文档关于 XPath 的使用XPath(XML Path Language)是一门在XML文档中查找信息的语言。XPath 可用来在XML文原创 2020-06-12 11:57:27 · 657 阅读 · 0 评论