博客专栏  >  综合   >  Python爬虫

Python爬虫

系统介绍Python的爬虫技术,包括使用基础类库、selenium+chromedriver、Scrapy框架、分布式爬虫

关注
0 已关注
16篇博文
  • 使用Python基础类库爬微博数据

    本例是基于https://weibo.cn/这个接口进行的爬虫实验,weibo.com可不是辣么好爬滴哟,gaga~ 一些必备的知识技能包括: 熟练使用诸如fidders之类的抓包工具; 熟...

    2018-01-31 01:31
    113
  • Python爬虫问题汇总(持续更新)

    @分布式爬虫的slave端找不到scrapy_redis: 运行slave端时使用:sudo scrapy crawl spidername,或sudo scrapy runspider mycr...

    2018-02-04 05:33
    257
  • 使用lxml+xpath解析html页面

    @待解析的页面 html lang="en"> title>Titletitle> body> h1> This is h1 h1> div> This is fisrt div ...

    2018-02-04 07:13
    297
  • 使用BeautifulSoup解析页面

    @安装beautifulsoup4: pip install beautifulsoup4 @引入类库 # 由bs4引入鸡汤 from bs4 import BeautifulSoup ...

    2018-02-04 07:36
    138
  • 使用requests进行简单http请求

    @引入类库 import requests @发起请求,获得页面内容 myheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1...

    2018-02-04 07:45
    102
  • 使用requests配合【lxml+xpath】爬取B2B网站

    @导入类库 import requests from lxml import etree import time @准备请求头,以伪装客户端浏览器 # 请求头,可以由F12页面控制台或f...

    2018-02-04 08:31
    73
  • 使用requests爬取图片

    @简单的小例子,直接上代码 import requests # 发起http请求 # imgurl = 图片地址 # headers用于伪装客户端浏览器 res = requests.get(im...

    2018-02-04 08:55
    83
  • 爬取【ajax+json】异步加载的网站

    @导入类库 import requests from lxml import etree import json import time @请求地址和请求头 # 请求头,用于伪装客户端浏...

    2018-02-04 10:02
    206
  • 使用requests访问必应在线翻译

    @导包 import requests import json @在浏览器中访问必应在线翻译首页,抓包获得相应的请求头 # 请求必应在线翻译首页,通过在浏览器中访问抓包请求头 heade...

    2018-02-04 10:58
    248
  • 爬虫突破登录壁垒-1

    @什么是登录壁垒 如今的很多网站要求你必须是注册用户并且登录的状态下,才为你提供服务 所以爬虫的许多访问和抓取工作,也必须以登录为前提 用户通过用户名、密码、验证码登录,通常提交的都是POST请求...

    2018-02-05 10:50
    98
  • 爬虫突破登录壁垒-2:使用cookies

    @通过cookies突破登录壁垒 在《壁垒-1》中我们模拟用户名、密码、验证码的方式实现了登录 在其抓包的过程中,我们发现服务端是给我们返回了cookies的,cookies的作用即在于记录用户信...

    2018-02-05 11:21
    107
  • 使用IP代理发起http请求

    @概述 同一IP爬多了,对方服务器可能会意识到你是一个爬虫程序而非真实用户,那么你就有IP被封的风险 随机切换不同的代理IP进行爬取,可以规避封IP反爬(做点网站真是挺不容易的o(╥﹏╥)o) 获...

    2018-02-05 11:54
    1574
  • 使用scrapy框架爬取股票数据

    @概述 本例将手把手带大家实现一个使用scrapy框架爬取股票数据的例子 我们将同花顺中融资融券中的几只个股的历史数据爬下来,并保存为csv文件(csv格式是数据分析最友好的格式) 本例使用到了p...

    2018-02-05 17:45
    653
  • scrapy框架的CrawlSpider类和LinkExtractor提取规则

    @业务场景 当爬虫的主要工作集中在对超链接的深度爬取而非首页时适用 当定义好子链接爬取规则时,框架会自动对子链接进行访问,并将不同样式的子链接页面结果交由不同回调函数处理 本例对《使用scrapy...

    2018-02-05 21:10
    142
  • 使用scrapy_redis分布式爬虫爬取壁纸网站

    @概述 对于比较庞大的爬虫项目,可以考虑分工在多台服务器上进行分布式爬取 master端安装redis内存数据库,实现高速写入和转存(必须要转存,否则断电或程序崩溃,则数据将不复存在) slave...

    2018-02-05 21:56
    110
  • 使用slenium+chromedriver实现无敌爬虫

    @概述 通常各大网站的后台都会有一定的反爬机制,既为了数据安全,也为了减小服务器压力 通常反爬的手段的方向,都是识别非浏览器客户端,而selenium所做的事情,恰恰是驱动真正的浏览器去执行请求和...

    2018-02-06 02:08
    1257
img博客搬家
img撰写博客
img发布 Chat
img专家申请
img意见反馈
img返回顶部