爬虫
luoz_python
我不会编程,但也不是完全不会,会一点点。
展开
-
微信公众号上的一次爬虫
前段时间,需要在微信上的一个公众号进行登陆、并进行公众号内的操作。这篇文章主要记录通过两种方式进行模拟登陆并操作该公众号,分别为selenium以及requests两种方式。前期准备工作1. 利用fiddler进行手机代理的设置由于手机查看请求不方便,因此利用fiddler进行手机代理的设置,从而在电脑端的fiddler获取到手机所有对外发起的请求,具体设置步骤如下:1>设置fid...原创 2019-05-20 20:40:02 · 4562 阅读 · 0 评论 -
爬虫实战(一)—利用requests、mongo、redis代理池爬取英雄联盟opgg实时英雄数据
概述此篇文章,主要记录利用Python request模块爬取LOL opgg英雄实时数据,并保存到mongodb中,爬取使用了可靠的redis维护IP代理池,这个过程已在腾讯云服务器上完成每日定时爬取,并完成个人订阅号 loak 的查询接口。以下简单写一下用到的技术,并在后面做详细的记录:爬虫相关:爬虫模块 requests、 mongodb模块 pymongo、 html解析 Be...原创 2019-06-17 23:00:06 · 7241 阅读 · 2 评论 -
Python爬虫(七)—类似jquery的 解析库 pyquery
前言以下关于pyquery 的学习,主要记录常用的知识点,深入了解的查看官方文档。pyquery : https://pyquery.readthedocs.io/en/latest/JQuery : http://jquery.cuishifeng.cn/本文参照博客:https://www.cnblogs.com/zhaof/p/6935473.htmlpyqueryp...原创 2019-06-02 22:59:06 · 2137 阅读 · 0 评论 -
Python爬虫(六)—解析利器 BeautifulSoup
前言以下关于正则表达式 BeautifulSoup 学习,主要记录常用的知识点,深入了解的查看官方文档。BeautifulSoup : https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/BeautifulSoup 介绍Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。安装...原创 2019-06-02 13:44:33 · 350 阅读 · 0 评论 -
Python爬虫(四)—深入学习Selenium
前言以下关于Selenium的内容讲解,强烈推荐深入了解的查看官方文档。英文版:Selenium、 https://selenium-python.readthedocs.io/Selenium介绍安装介绍selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理...原创 2019-05-29 23:36:21 · 460 阅读 · 0 评论 -
Python爬虫(三)— 深入了解Requests模块
前言以下关于Requests的内容讲解,强烈推荐深入了解的查看官方文档。中文版:Requests、 http://cn.python-requests.org/zh_CN/latest/RequestsRequests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库。默认安装好python之后,是没有安装requests模块...原创 2019-05-28 22:26:23 · 400 阅读 · 0 评论 -
Python爬虫(五)—正则表达式 re 的深入学习
前言以下关于正则表达式 re 学习记录,强烈推荐深入了解的查看官方文档。re:https://docs.python.org/zh-cn/3/library/re.html本文借鉴官方文档及博文:https://www.cnblogs.com/zhaof/p/6925674.html正则表达式正则表达式是一组由字母和符号组成的特殊文本, 它可以用来从文本中找出满足你想要的格式的句...原创 2019-05-30 22:20:08 · 191 阅读 · 0 评论 -
Python爬虫(二)— Python3内置模块 Urllib
前言以下关于Urllib的内容讲解,强烈推荐深入了解的查看官方文档。英文版:Urllib https://docs.python.org/3/library/urllib.htmlUrllibUrllib是python内置的HTTP请求库,包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块url...原创 2019-05-27 23:26:34 · 442 阅读 · 0 评论 -
Python爬虫(一)—爬虫的预备知识(爬虫概念、HTTP与HTTPS、请求与响应)
这篇博文,主要是结合CriseLYJ/Python-crawler-tutorial-starts-from-zero内关于Python爬虫的预备知识进行记录的。爬虫的定义、分类和流程爬虫定义网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。爬虫就是模拟浏览器的行为,越像越好,越像就越不容易被发现。原则...原创 2019-05-26 11:39:06 · 458 阅读 · 0 评论 -
爬取分析—去哪儿景点热度
本文主要采用selenium(PhantomJS)模拟浏览器分析爬取去哪儿的国内所有省份10000多个景点信息,并保存在MongoDB中提取分析景点热度、省份旅游热度、景点描述词云等。代码已托管GitHub,luozhengszj/spider确定爬取目标去哪儿景点,目标站点为:http://piao.qunar.com/ticket/list.htm?keyword=广西&re...原创 2019-05-20 20:40:09 · 2322 阅读 · 0 评论 -
爬虫实战(二)—利用requests、selenium爬取王者官网、王者营地APP数据及pymongo详解
概述可关注微信订阅号 loak 查看实际效果。代码已托管github,地址为:https://github.com/luozhengszj/LOLGokSpider,包括了项目的所有代码。本文主要介绍以下内容:使用selenium 和 requests爬取王者荣耀官网、王者营地APP数据,使用BeautifulSoup和正则进行数据解析;爬取的IP代理使用了redis搭建的代理...原创 2019-06-30 22:10:04 · 8012 阅读 · 7 评论