爬虫
Edward_is_1ncredible
这个作者很懒,什么都没留下…
展开
-
[Python爬虫] 3-数据解析(lxml/bs4/正则)
# I.Xpath语法和lxml模块 # 1)Xpath语法 # 1.概念:XPath是一门在XML/HTML文档中查找信息的语言 # 2.工具:Chrome的XPath Helper和Firefox的XPath Checker # 3.语法:使用//获取整个页面当中的元素,然后写标签名,然后写谓词进行提取,例://div[@class="abc"] # 4.几个注意点: # i.//子...原创 2018-09-26 22:43:05 · 961 阅读 · 0 评论 -
[Python爬虫] 1-爬虫前奏
I.爬虫概述 1)爬虫的实际例子 1.搜索引擎 2.伯乐在线 3.惠惠购物助手 4.数据分析研究(数据冰山知乎专栏) 5.抢票软件 2)什么是网络爬虫 通俗理解:模拟人请求网站行为的程序,可以自动请求网页并抓取下来,然后使用一定的规则提取有价值的数据 3)通用爬虫和聚焦爬虫 1.通用爬虫:搜索引擎的重要组成部分,将互联网上的网页下载到本地,形成一个互联网内容的景象备份...原创 2018-09-21 16:00:55 · 348 阅读 · 0 评论 -
[Python爬虫] 2-网络请求
# I.urllib库:最基本的网络请求库,可以模拟浏览器的行为,向指定的服务器发送一个请求,并且可以保存返回的数据,常用函数如下: # 1)urlopen:抓取内容 from urllib import request response = request.urlopen("http://www.baidu.com") print(response.read()) # 在函数上ctrl+b跳转...原创 2018-09-22 17:19:26 · 572 阅读 · 0 评论 -
[Python爬虫] 5-爬虫进阶(多线程爬虫/动态网页抓取/图形验证码识别)
# I.多线程爬虫 # 1)概念:多线程是为了同步完成多项任务,通过提高资源使用效率来提高系统的效率 # 线程:火车的车厢,进程:火车头 # # 2)threading模块:专门提供用来做多线程编程的模块 # tips:可在打印时设置这两个打印内容: # threading.enumerate():查看当前线程的数量 # threading.current_thread():...原创 2018-10-15 20:53:59 · 735 阅读 · 0 评论 -
[Python爬虫] 4-数据存储(JSON/CSV/MySQL/MongoDB)
# I.json文件处理 # 1)简介: # 1.json是什么:json(JavaScript Object Notation),是一种轻量级的数据交换格式 # 2.json有什么数据格式: # i.对象(Python中的字典):{} # ii.数组(Python中的列表):[] # iii.整形,浮点型,布尔类型,null类型 # iv.字符串类型(必须使用"...原创 2018-10-10 17:08:38 · 341 阅读 · 0 评论 -
[Python爬虫] 6-Scrapy框架
# I.Scrapy框架架构: # 1)框架概念:写一个爬虫,需要[发送网络请求,数据解析,数据存储,反反爬虫机制(更换ip代理、设置请求头等),异步请求等]这些工作如果每次都要自己从零开始写的话,比较浪费时间,因此Scrapy把一些基础的东西封装好了,在他上面写爬虫可以变的更加的高效(爬取效率和开发效率) # 2)框架模块功能: # 1.Engine:核心部分,负责在Spider和It...原创 2018-10-23 16:57:20 · 364 阅读 · 0 评论 -
[Python爬虫] 7-Charles抓取微信小程序
最近在尝试抓取微信的小程序,用到了Charles,微信小程序的话需要使用HTTPS抓包,网上有些教程内容有步骤的缺失,所以重新整理一份傻瓜式的教程,环境WIN10+IOS,内容基于Roy_Liang前辈:https://www.jianshu.com/p/5539599c7a25: 1.Charles安装 官网下载安装Charles:https://www.charlesproxy.com/d...原创 2018-11-13 10:06:27 · 4097 阅读 · 2 评论