菜鸡陶-CSDN博客

翻译 python爬虫（云打码平台）

处理验证码，最通用的方式就是使用三方平台帮我们对相关的验证码进行识别和处理。其中云打码平台就是一个非常通用的打码平台。http://www.yundama.com/demo.html该平台可以帮助我们识别的验证码有如下类型：使用流程：云打码平台：在官网中进行注册（普通用户和开发者用户）登录开发者用户：实例代码的下载（开发文档-》调用示例及最新的DLL-》PythonHTTP实例下...

2020-02-12 14:27:20 5005 3

原创 python爬虫（爬取4k图片）+xpath解析

URL:http://pic.netbian.com/4kmeinv/具体实现跟爬取二手房信息类似这个案例加了关于图片数据（二进制数据）的保存与中文乱码的处理不再一一陈述详情参考上一篇代码如下：import requestsfrom lxml import etreeimport os#UA伪装headers={ 'User-Agent':'Mozilla/5.0 (Wi...

2020-02-11 16:15:33 733 2

原创 python爬虫（爬取58二手房信息）+xpah解析

1、爬取首页信息源码2、以爬取二手房标题为例通过F12抓包工具，快捷键【Ctrl+Shift+C】点击二手房标题，查看源码。进行数据解析通过两个二手房标题分析源码h2 class="title"标题是在标签div class="content-side-left"下的标签ul class="house-list-wrap"下的li标签里面如图：进一步分析：h2 class=“...

2020-02-11 15:14:12 4838 1

原创 python爬虫（爬取三国演义小说章节标题和章节内容）+bs4数据解析

1、网页URL: http://www.shicimingju.com/book/sanguoyanyi.html1.1 注意安装环境pip install bs4pip install lxml(解析器)1.2 数据解析原理：1.2.1 标签定位1.2.2 提取标签、标签属性中存储的数据值1.3 bs4数据解析的原理：（bs4只能用于python）1.3.1实例化一个Beauti...

2020-02-11 11:30:36 3957 7

原创 python爬虫（国家药品监督总局化妆品生产许可证相关信息）+Ajax请求分析（动态加载数据）

1：网址 http://125.35.6.84:81/xk/2：想要获取如下详情信息：3：分析Ajax请求首先确认是否请求当前URL会获取首页信息，如获取首页信息，会获得相应企业名称的超链接，获取超链接则可以获取相应详情信息。可通过对当前URL发送请求进行验证。（笨办法）还可以通过抓包工具进行验证。判断是和是Ajax请求查看对当前URL请求的response响应通过抓包工具【...

2020-02-10 17:15:17 7832 6

原创 python爬虫（爬取豆瓣电影详情数据）

打开豆瓣电影F12抓包工具分析AJax请求以喜剧片为例，得到URL和使用GET方法还有其URL参数返回为json类型实现结果如图：代码如下：import requestsimport json#UA伪装headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (K...

2020-02-09 21:58:40 2825

原创 python爬虫（破解百度翻译）

首先进入百度翻译，分析翻译部分存在Ajax请求（AJAX 是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换，AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。）通过F12抓包工具分析Ajax请求确定URL和使用POST方法如图：查看参数：结果如下：代码如下：import requestsimport js...

2020-02-08 21:55:22 1617 2

原创 python爬虫（简易网页采集器）

爬虫基本流程：1、指定URL2、基于requests模块发起请求3、获取响应对象中的数据值4、持久化存储关于爬虫的君子协议：robots.txt 在网站名后加/robots.txt查看可以爬取的信息如淘宝网站：User-Agent(请求载体的身份标识)打开浏览器，按F12出现抓包工具如图：可以使用此User-Agent，图示为使用QQ浏览器的身份标识（其中XHR中有Aja...

2020-02-08 20:49:51 1052 2

原创 python图形化界面+爬取淘宝信息+生成柱状分析图(淘宝查询系统)

注册登录用户信息未连接数据库，采用python第三方库pickle，永久保存信息。登陆成功后，界面跳转输入爬取的内容，爬取44条信息，爬取结果如图将爬取内容保存到csv文件中，根据csv文件生成柱状分析图：csv文件柱状分析图：代码如下：import reimport requestsimport timeimport tkinter as tkimport tk...

2020-01-29 20:48:57 2234 1

原创 python图形化界面 +爬取豆瓣电影影评+生成词云

python网络编程项目根据豆瓣电影url获取电影的ID如图url中的30306570就是电影《囧妈》的ID获取每部电影的前10页影评保存在以电影名称命名的TXT文件中根据影评结巴分词生成词云运行如图：词云：（可自定义词云形状）代码如下：#-* -coding=UTF-8 -*-from tkinter import *import urllib.requestfr...

2020-01-29 20:18:00 1319 2

原创 win10系统 pycharm+django+python实现web服务

作为一名普通大学的一名计算机系的大二学生，浑浑噩噩度过了两年的大学时光，看着周围的同学辛苦奋斗了两年，陆陆续续出去参加各种比赛，拿到各种奖项，心里有点不是滋味，从现在开始根据自己的情况自学python,通过博客记录，整理经验。作为小白，经常查阅一些资料，网上说的太过于专业，有些地方不易理解，我根据自己的理解进行整理，如果有出错的地方大家可以指出，促进学习。首先在官网下载pyc...

2019-07-26 09:57:59 449

qq_44026036的博客