PYTHON爬虫
kingx3
这个作者很懒,什么都没留下…
展开
-
Python进阶之MongoDB初探
Python进阶之MongoDB初探1. 什么是MongoDB?1.1 MongoDB简介1.2 MongoDB的特点2. windows下安装MongoDB2.1 下载2.2 安装windows版安装方法:zip版安装方法:windows环境变量配置2.3 测试打开服务打开client3. 注意事项1. 什么是MongoDB?1.1 MongoDB简介MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系原创 2020-09-15 22:25:29 · 186 阅读 · 0 评论 -
Python进阶之Scrapy-redis分布式爬虫抓取当当图书
Python进阶之Scrapy-redis分布式爬虫抓取当当图书1. 准备工作1.1 安装scrapy-redis1.2 在windows安装redis程序1.3 打开redis服务2. 需求分析2.1 需求一: **实现当当图书列表内容和图书内容的抓取**2.3 需求二: **实现从普通爬虫修改为分布式爬虫**3. 代码示例3.1 创建项目3.2 dangdang.py3.3 items.py3.4 settings.py3.5 start.py4. 注意事项4.1 普通爬虫改写为分布式爬虫的步骤4.2原创 2020-09-14 21:03:26 · 328 阅读 · 0 评论 -
Python进阶之Scrapy抓取苏宁图书数据
Python进阶之Scrapy抓取苏宁图书数据1. 需求2. 代码示例:创建项目start.pysettings.pyiterms.pysnb.pypipelines.py3. 注意事项1. 需求1.抓取苏宁图书数据2.把数据存在txt文件中2. 代码示例:创建项目scrapy startproject snbookcd snbookscrapy genspider snb suning.comstart.pyfrom scrapy import cmdline# cmdli原创 2020-09-08 00:58:34 · 197 阅读 · 0 评论 -
Python进阶之Scrapy利用ImagesPipeline抓取汽车之家宝马5系缩略图
Python进阶之Scrapy利用ImagesPipeline抓取汽车之家宝马5系缩略图1. 创建项目2. 使用ImagesPipeline爬取数据items.pysetings.pyauto.pystart.py3. 总结1. 创建项目scrapy startproject AutoHomecd AutoHomescrapy genspider auto autohome.com.cn2. 使用ImagesPipeline爬取数据可以在pipelines里边使用:from scrapy原创 2020-09-04 23:34:59 · 256 阅读 · 0 评论 -
Python进阶之Scrapy通过下载中间件携带随机U-A(DOWNLOADER_MIDDLEWARES,random.choice(),request.headers[])
Python进阶之Scrapy通过下载中间件携带随机U-AScrapy随机U-A项目ua.pymiddlewares.pysettings.pystart.py注意事项:需求:Scrapy访问网页时采用随机U-A测试页面: http://httpbin.org/user-agent通过DOWNLOADER_MIDDLEWARES实现Scrapy随机U-A项目scrapy startproject MVcd MVscrapy genspider ua httpbin.orgua.py原创 2020-09-04 20:12:00 · 192 阅读 · 0 评论 -
Python进阶之使用Scrapy实现自动登录Github的两种方法(POST,FormRequest,from_response)
Python进阶之使用Scrapy实现自动登录Github的两种方法1.通过.FormRequest()实现登录githubgithub1.py# 2.通过.FormRequest.from_response()实现登录githubgithub2.pyps.py需要注意的几点:1.通过.FormRequest()实现登录github需求: 通过提交表单自动登录github需求分析:1.目标登录页面: https://github.com/login2.表单提交页面: https://gi原创 2020-09-04 01:47:22 · 420 阅读 · 0 评论 -
Python进阶之CrawlSpider的应用及Scrapy配置项的引用
1. CrawlSpider的应用CrawlSpider可以根据规则自动分析链接的数据并按照正则的要求取出需要的数据scrajpy startproject ygcd yg注意-t crawl参数scrapy genspider -t crawl 爬虫名称 域名csun.py需求:爬取阳光问政的详情页内容LinkExtractor 链接提取器callback 回调函数follow 继续提取下一页的urlallow里边写的是正则表达式import scrapy原创 2020-09-02 19:25:20 · 331 阅读 · 8 评论 -
Python进阶之Scrapy抓取阳光政务平台
Python进阶之Scrapy抓取阳光政务平台1. 目标2. 页面分析3. 示例代码创建项目start.pyitems.pysettings.pypipelines.pysun.py注意事项1. 目标爬取http://wz.sun0769.com/political/index/politicsNewest网站标题及详情内容2. 页面分析1.列表页网址http://wz.sun0769.com/political/index/politicsNewest?id=1&p原创 2020-08-31 21:40:06 · 464 阅读 · 0 评论 -
Python进阶之Scrapy抓取腾讯招聘数据
Python进阶之Scrapy抓取腾讯招聘数据1. 创建Scrapy项目2. 分析页面1.**寻找初始url**2.**确定初始url**3.**寻找详情页url**4.**确定详情页url**3.示例程序1. hr.py2. settings.py3. items.py4. pipelines.py5. start.py需求:通过Scrapy实现抓取腾讯招聘详情页数据1. 创建Scrapy项目scrapy startproject qqSpidercd qqSpiderscrapy gen原创 2020-08-27 20:03:29 · 412 阅读 · 0 评论 -
Python进阶之Scrapy框架入门
Python进阶之scrapy框架1. Scrapy入门1.1 什么是Scrapy1.2 Scrapy架构1.3 安装Scrapy2. Scrapy项目初探2.1 创建一个Scrapy项目2.2 运行爬虫1. Scrapy入门1.1 什么是ScrapyScrapy是一个适用爬取网站数据、提取结构性数据的应用程序框架,它可以应用在广泛领域:Scrapy 常应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫,抓取指定网站的内容或图片。S原创 2020-08-25 17:13:10 · 328 阅读 · 0 评论 -
Python零基础之多线程爬取王者荣耀官方网站高清壁纸(threading、queue)
Python零基础之多线程爬取王者荣耀官方网站高清壁纸1. 目标2. 代码示例3. 注意4. 引用1. 目标通过多线程和队列的方式快速抓取王者荣耀高清壁纸程序架构以生产者-消费者模式进行设计,数据缓存在两个队列中将壁纸文件按照英雄名称为目录的方式保存实现对下载失败的文件重新下载2. 代码示例# !/usr/bin/python# Filename: 多线程方式实现王者荣耀壁纸图片抓取.py# Data : 2020/08/21# Author : --king--# ctr原创 2020-08-21 17:15:48 · 444 阅读 · 0 评论 -
Python零基础之爬取王者荣耀官方网站高清壁纸(普通版)
Python零基础之爬取王者荣耀官方网站高清壁纸目标:分析过程:1. 确定目标url2. 解决url解析问题3. 图片下载解析4. 多页面的处理代码示例需要注意的问题:目标:1.下载王者荣耀网站游戏壁纸的高清壁纸2.把同一个名称的壁纸放到同一个文件夹分析过程:1. 确定目标url访问https://pvp.qq.com/web201605/wallpaper.shtml发现图片地址并不在网页html源码中,检查浏览器,分析network。发现目标url有可能是:https://原创 2020-08-16 19:38:09 · 2001 阅读 · 0 评论 -
Python零基础之多线程(threading、enumerate、Lock、RLock、Queue、Condtion)
Python零基础之多线程1. 为什么要使用多线程2. python如何实现多线程2.1 python的多线程模块2.2 主线程和子线程的执行关系2.3 查看线程数量.enumerate()2.4 验证进程的创建和运行1. 为什么要使用多线程多线程类似于同时执行多个不同程序,多线程运行有如下优点:使用线程可以把占据长时间的程序中的任务放到后台去处理。用户界面可以更加吸引人,比如用户点击了一个按钮去触发某些事件的处理,可以弹出一个进度条来显示处理的进度。程序的运行速度可能加快。在一些等待的任务原创 2020-08-15 00:06:03 · 326 阅读 · 0 评论 -
Python零基础之selenium进阶(多窗口和页面等待)
Python零基础之selenium进阶 - 多窗口和页面等待1. selenium中的页面等待2. selenium多窗口1. selenium中的页面等待主要分为三种:固定等待,隐式等待,显式等待固定等待:通过time.sleep()实现,等待一段时间,这个时间可以是固定值也可以配合random模块调整为随机值隐式等待:通过.implicitly()实现,有等待条件,一般为有匹配对象就立刻结束等待时间,运行效率较高,但存在被反爬的风险显式等待:通过WebDriverWait()实现,与隐式原创 2020-08-10 17:48:51 · 643 阅读 · 0 评论 -
Python零基础之selenium进阶:自动登录qq空间
Python零基础之selenium进阶:自动登录qq空间目标注意事项目标通过selenium自动登录qq空间获取cookie并保存成文件通过requets加载headers实现自动登录qq空间# !/usr/bin/python# Filename: selenium登录qq空间.py# Data : 2020/08/07# Author : --king--# ctrl+alt+L自动加空格格式化from selenium import webdriverimpor原创 2020-08-08 00:01:10 · 253 阅读 · 0 评论 -
Python零基础之selenium
Python零基础之selenium1. selenium1.1 什么是selenium1.2 selenium的功能1.3 selenium的优势2. 初探selenium2.1 selenium的一些方法2.2 selenium如何与浏览器互动2.3 操作下拉菜单2.4 行为链Action Chains3. 使用selenium自动登录豆瓣3.1 代码示例3.2 注意事项1. selenium1.1 什么是seleniumselenium 英[səˈliːniəm] 美[səˈliːniəm]原创 2020-08-07 04:01:32 · 432 阅读 · 0 评论 -
Python零基础之bs4抓取全国天气
Python零基础之bs4抓取全国天气目标需要注意的地方目标使用bs4抓取全国天气使用面向对象的写法# !/usr/bin/python# Filename: 用bs4实现抓取全国天气预报.py# Data : 2020/07/29# Author : --king--# ctrl+alt+L自动加空格格式化from bs4 import BeautifulSoupimport requestsimport csv# 获取网页源代码def page_html原创 2020-07-29 18:32:54 · 237 阅读 · 0 评论 -
Python零基础之BeautifulSoup4
BeautifulSoup41. 什么是BeautifulSoup42. BS4入门2.1 功能示例2.2 数据类型3. 遍历节点3.1 遍历子节点:.contents .children .descendants3.2 获取字符串内容:.string .strings .stripped strings3.3 遍历父节点:.parent .parents3.4 遍历兄弟节点:_sibling _siblings4. 搜索树:find, find_all和过滤器4.1 find, find_all4.2 过原创 2020-07-28 19:30:09 · 284 阅读 · 0 评论 -
Python零基础之xpath实现爬取豆瓣TOP250(lxml,,etree,xpath,csv)
lxml和xpath1. xpath语法1.1 什么是xpath1.2 xpath语法1.3 xpath运算符2. xpath如何使用?2.1 lxml库2.2 etree用法3. 如何写入csv文件4. 抓取豆瓣TOP2501. xpath语法1.1 什么是xpathXPath(XML Path Language)是一种XML的查询语言: 他能在XML树状结构中寻找节点。XPath 用于在 XML 文档中通过元素和属性进行导航xml是一种标记语法的文本格式: xpath可以方便的定位xml中的元原创 2020-07-27 02:01:47 · 271 阅读 · 0 评论 -
Python零基础之爬取瀑布页百度图片(正则表达式,爬虫,反爬,延时,异常处理)
通过正则表达式爬取瀑布页百度图片思路:需要注意的地方:思路:根据输入的关键字,获取想要爬取的百度图片页的url地址为了方便抓取,把瀑布页的展示模式改为翻页式寻找翻页url的规律,获取需要抓取的url地址分析url和html源码,通过正则表达式获取原始图片的url地址通过正则表达式处理将来需要保存的图片名称获取图片数据,并保存为指定名称# !/usr/bin/python# Filename: 通过正则表达式爬取瀑布页百度图片.py# Data : 2020/07/23# Au原创 2020-07-23 17:36:54 · 448 阅读 · 0 评论 -
Python零基础之自动登录12306
Python零基础之自动登录12306文章目录Python零基础之自动登录12306需要注意的问题直接上代码分析过程在代码注释中已经写的较为清楚# !/usr/bin/python# Filename: 登录12306.py# Data : 2020/07/21# Author : --king--# ctrl+alt+L自动加空格格式化# 验证码url分析# 首先开12306,点击登录,在登录界面看到扫码和账号登录# 通过输入错误的验证码和输入争取的验证码,抓包发现,原创 2020-07-23 01:19:54 · 254 阅读 · 0 评论 -
Python零基础之re正则表达式
1. re中的一些函数match和search是只返回第一个匹配的结果或者返回NONEfindall返回所有匹配的结果# !/usr/bin/python# Filename: test.py# Data : 2020/07/16# Author : --king--# ctrl+alt+L自动加空格格式化import re# 以下是re中match,search,findall的定义# 1. match# 从字符串开始部分进行匹配,如果匹配成功,返回一个匹配结果,原创 2020-07-20 20:39:17 · 185 阅读 · 1 评论 -
Python零基础之用三种方式爬取百度贴吧(urllib,request,parse)
一: 入门写法# !/usr/bin/python# Filename: 实战 爬取百度贴吧.py# Data : 2020/07/14# Author : --king--# ctrl+alt+L自动加空格格式化import urllib.request, urllib.parseimport random# 随机获取一个user-agent# 百度上很多U-A大全header_list = [{ 'User-Agent': 'Moz原创 2020-07-16 19:58:28 · 343 阅读 · 0 评论 -
Python零基础之urllib
1. urllib.request模块通过urllib获取百度首页源码import urllib.request# 通过urlopen打开网址,返回值为http.client.HTTPResponse object对象# res = urllib.request.urlopen('https://www.baidu.com')# print(res)## # 如果有反爬,则会返回错误数据# print(res.read())# # 返回值为字节# print(type(re原创 2020-07-11 22:21:09 · 157 阅读 · 0 评论 -
Python零基础之爬虫基础知识(协议和网络模型)
爬虫基础爬虫基础1. 通讯协议2. 网络模型2.1 OSI七层模型2.2 TCP/IP模型3. http、https和相关协议3.1 http3.2 https3.3 SSL3.4 TLS爬虫基础1. 通讯协议开放系统互联协议中最早的协议之一,它为连接不同操作系统和不同硬件体系结构的互联网络提供通信支持,是一种网络通用语言。TCP/IP协议定义了在互联网络中如何传递、管理信息(文件传送、收发电子邮件、远程登录等),并制定了在出错时必须遵循的规则。实现不同目标的相互通信的过程通讯协议就是通信方都必原创 2020-07-09 22:18:03 · 411 阅读 · 0 评论 -
Python爬虫实现模拟自动刷新51job简历
# !/usr/bin/python# Filename: 实战 自动刷新简历.py# Data : 2020/07/01# Author : --king--# ctrl+alt+L自动加空格格式化# 反爬策略# 1.伪装U-A# 2.使用代理ip# 3.图片识别验证码# 4.抓包分析突破异步加载-ajax# 5.降低访问频率# 6.添加cookiesfrom selenium import webdriverimport time# from 用户名密码.py原创 2020-07-01 21:32:51 · 471 阅读 · 0 评论 -
实战爬虫抓取糗事百科段子(抓段子详情页)
实战爬虫抓取糗事百科段子(抓段子详情页)先抓取详情页链接,拼接成为正确地址抓取详情页数据,处理掉不需要的字符当正则写的结果不唯一时,通过切片获取需要的数据# !/usr/bin/python# Filename: 实战 糗事百科(抓详情页).py# Data : 2020/06/15# Author : --king--# ctrl+alt+L自动加空格格式化import requestsimport reimport time# 获取详情页面urldef de原创 2020-06-15 20:10:48 · 314 阅读 · 0 评论 -
实战爬虫抓取糗事百科段子(抓段子首页)
实战爬虫抓取糗事百科段子抓段子所需要的正则比较简单难点在如何写的规范,让人一眼能够看出来另外还需注意输出内容中多余字符的处理多页抓取注意设置延时,避免页面打开速度对抓取结果的影响数据保存采取追加的方式# !/usr/bin/python# Filename: 实战 糗事百科.py# Data : 2020/06/15# Author : --king--# ctrl+alt+L自动加空格格式化import requestsimport reimport time原创 2020-06-15 18:20:51 · 285 阅读 · 0 评论 -
实战抓取赶集网租房信息
文章目录``实战抓取赶集网租房信息注意事项``实战抓取赶集网租房信息# !/usr/bin/python# Filename: 使用正则表达式爬取赶集网.py# Data : 2020/06/15# Author : --king--# ctrl+alt+L自动加空格格式化import requestsimport redef parse_page(page_url): headers = { 'User-Agent': 'Mozilla/5.0 (W原创 2020-06-15 17:32:39 · 284 阅读 · 0 评论 -
Python爬虫之实战抓取快代理(面向对象)
面向对象的写法通过把前若干页网站生成为列表封装到__init__进行初始化,进一步缩短主函数的长度。总代码行数有所增加,但是更简洁。# !/usr/bin/python# Filename: 实战爬取快代理.py# Data : 2020/05/30# Author : --king--# ctrl+alt+L自动加空格格式化import requestsfrom bs4 import BeautifulSoupimport timeheaders = { 'Us.原创 2020-05-30 13:57:25 · 347 阅读 · 1 评论 -
Python爬虫抓取豆瓣电影Top250
# !/usr/bin/python# Filename: 实战:爬取豆瓣 1.py# Data : 2020/05/28# Author : --king--import requestsfrom bs4 import BeautifulSoup# import time# import random# 1.目标网站豆瓣电影Top250:https://movie.douban.com/top250# 创建requests要用到的headers和cookies头,做字典''处原创 2020-05-28 22:18:42 · 1166 阅读 · 0 评论 -
Python爬虫之BeautifulSoup4库
Python爬虫之BeautifulSoup4库1. 安装BeautifulSoup4截至2020年5月24日,BeautifulSoup4最新版本为4.9.1pip install bs4或pip install BeautifulSoup4Looking in indexes: http://pypi.douban.com/simple/Requirement already satisfied: BeautifulSoup4 in f:\python36\lib\site-pack原创 2020-05-24 14:42:55 · 812 阅读 · 0 评论 -
win10命令行pip报错解决的方法
win10 2004更新后出现命令行下pip无法使用报错的问题,报错内容如下:© 2020 Microsoft Corporation. 保留所有权利。C:\Users\Administrator\Desktop>pipTraceback (most recent call last):File “f:\python36\lib\runpy.py”, line 193, in _run_module_as_main“main”, mod_spec) File “f:\python36\原创 2020-05-24 13:30:24 · 4256 阅读 · 1 评论 -
第二课 Python - 基本数据类型
Python - 基本数据类型1. 几个概念表达式:不对程序产生影响语句:用来实现某种功能的代码代码块:代码块中的语句要么执行要么不执行比较特殊的语句:pass程序:由表达式和语句组成函数:print()函数是用来完成特殊功能的语句形如 abc()函数的分类:内建函数和第三方函数多个参数之间用‘,’隔开返回值return2.标识符Python语言的组成 组成部分原创 2020-05-24 00:04:59 · 330 阅读 · 0 评论 -
Pycharm的环境搭建
下载https://www.jetbrains.com/pycharm/download/下载想用的版本即可安装路径尽量简单除了.py关联别打勾,一路next运行双击桌面图标即可进入配置可以通过原创 2020-05-20 22:25:53 · 459 阅读 · 0 评论 -
完美解决3.5版后etree无法直接引用的问题
【课程介绍】 本课程总体分成五大模块,分别是网络请求、数据解析、数据存储、爬虫进阶、Scrapy框架和分布式爬虫,包含了一个爬虫工程师需要掌握的几乎所有技能,知识点非常体系。实战部分都是紧贴知识点,即学即用,紧跟潮流。课程还配有许多作业,通过作业可以让学生实现真正把技术转成自己的技能的目的。 【课程内容包括】 共150讲课程+...原创 2020-05-17 17:21:12 · 1463 阅读 · 2 评论