爬虫--Skr-Eric的编程课堂
专注爬虫小白的编程课堂
Skr-Eric
文艺系程序猿一枚
展开
-
Skr-Eric的爬虫课堂(八)——爬虫的最后一些项目和手机抓包等知识点
生成器(yield)1、yield作用 :把1个函数当做1个生成器来使用2、yield特点 :让函数暂停,等待下一次调用项目 :Csdn1、知识点 :yield、pipelines.py2、网址:https://blog.csdn.net/zhuimengshaonian66/article/details/844734443、目标标题...原创 2020-01-09 17:53:29 · 212 阅读 · 0 评论 -
Skr-Eric的爬虫课堂(七)——爬虫的Scrapy框架
Scrapy框架1、定义异步处理框架,可配置和可扩展程度非常高,Python中使用最广泛的爬虫框架2、安装(Ubuntu)1、安装依赖库sudo apt-get install python3-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev...原创 2020-01-08 17:14:09 · 252 阅读 · 0 评论 -
Skr-Eric的爬虫课堂(六)——爬虫的多线程爬虫和BeautifulSoup解析
京东商品抓取案例from selenium import webdriverimport csvimport time# 1. 接收要搜索的商品类型,打开商品搜索页面pro = input("请输入商品名称:")driver = webdriver.Chrome()driver.get("https://www.jd.com/")# 发送文字到搜索框,点击搜索按钮driv...原创 2020-01-06 17:27:47 · 267 阅读 · 0 评论 -
Skr-Eric的爬虫课堂(五)——爬虫的json模块、动态网站数据抓取、selenium爬取
json模块1、javascript中的对象和数组对象 :{"key":"value"}数组 :[X1,X2,X3]2、作用json格式的字符串 和 Python数据类型 之间的转换3、常用方法1、json.loads() : json格式 --> Python数据类型json pyth...原创 2020-01-03 17:30:09 · 746 阅读 · 0 评论 -
Skr-Eric的爬虫课堂(四)——爬虫的xpath工具、lxml库及xpath使用模块和爬取百度、糗百的案例
xpath工具(解析)1、xpath在XML文档中查找信息的语言,同样适用于HTML文档检索2、xpath辅助工具1、Chrome插件 :Xpath Helper1、打开/关闭 :Ctrl + Shift + x2、Firefox插件 :Xpath checker3、Xpath表达式编辑工具 :XML Quire...原创 2020-01-02 17:44:06 · 421 阅读 · 0 评论 -
Skr-Eric的爬虫课堂(三)——爬虫的模拟登陆、requests模块、get()中参数和Handler处理器
Cookie模拟登陆1、什么是cookie、sessionHTTP是一种无连接协议,客户端和服务器交互仅仅限于 请求/响应 过程,结束后断开,下一次请求时,服务器会认为是一个新的客户端,为了维护他们之间的连接,必须在一个地方保存客户端信息cookie :通过在客户端记录的信息确定用户身份session:通过在服务端记录的信息确定用户身份2、案例 ...原创 2019-12-31 10:59:02 · 329 阅读 · 0 评论 -
Skr-Eric的爬虫课堂(二)——爬虫的解析模块和数据持久化存储
解析模块1、数据的分类1、结构化数据特点:有固定的格式,如:HTML、XML2、非结构化数据示例:图片、音频、视频,这类数据以二进制方式存储2、正则表达式 re1、使用流程1、创建编译对象 :p = re.compile('正则表达式')2、对字符串进行匹配 :r = p.ma...原创 2019-12-30 17:46:59 · 598 阅读 · 1 评论 -
Skr-Eric的爬虫课堂(一)——爬虫的介绍和请求模块
1、网络爬虫1、定义 :网络蜘蛛、网络机器人,抓取网络数据的程序2、总结 :用Python程序模仿人去访问网站,模仿的越像人越好3、爬取数据的目的 :通过有效的大量数据分析市场走势、公司决策2、企业获取数据的方式1、公司自有数据2、第三方数据平台购买数据堂、贵阳大数据交易所3、爬虫爬取数据市场上没有或者价格太高,利用...原创 2019-12-27 17:36:18 · 685 阅读 · 1 评论 -
要想玩python爬虫,先来学习一下正则表达式吧!
正则表达式动机1. 文本处理已经成为计算机的常见工作之一2. 对文本内容的搜索,定位,提取是逻辑比较复杂的工作3. 为了快速解决上述问题,产生了正则表达式技术定义 : 即文本的高级匹配模式,提供搜索,替代等功能。其本质是一系列由特殊符号组成的字串,这个字串即正则表达式。匹配原理 : 由普通字符和特殊符号组成字符串,通过描述字符的重复和位置等行为,达到匹配某一类字符串的目的目标...原创 2019-12-18 08:56:56 · 2095 阅读 · 1 评论