![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
文章平均质量分 91
以爬虫实战和基础为例
轩轩超可爱
这个作者很懒,什么都没留下…
展开
-
第-4章-用-CSV-和-Excel-存储数据
CSV(Comma-Separated Values)其实就是纯文本,用逗号分隔值,可以分隔成多个单元格。CSV 文件除了可以用普通的文本编辑工具打开,还能用 Excel 打开,但 CSV 和 ExcelPython 中内置了一个 csv 模块用来处理 CSV 文件。原创 2024-05-17 22:18:58 · 810 阅读 · 0 评论 -
第-3章-python-爬虫抓包与数据解析
第 3章 Python 爬虫抓包与数据解析3.1 抓包进阶目前,我们已经会使用 Chrome 浏览器自带的开发者工具来抓取访问网页的数据包,但是这种抓包方法有局限性,比如只能监听一个浏览器选项卡,如果想监听多个选项卡,必须打开多个页面。另外,随着智能手机的普及,企业也不像以前一样必须开发一个 PC 端的网站,而是更倾向于制作自己的 App 或微信小程序等。另外比较重要的一点是,App 端的反爬虫没有Web 端那么强,所以移动端的抓包也是一门必备技能。3.1.1 HTTPS 介绍HTTP,它使用 T原创 2024-05-17 22:07:29 · 700 阅读 · 0 评论 -
第-5章-用数据库存储数据
这种表格存储文件的形式适用于少量数据的情况,当记录很多、字段很多时,打开文件会非常慢,而且卡顿,多个 Sheet 之间不能设计复杂的数据关系,这时就要使用数据库了。原创 2024-05-17 22:59:46 · 725 阅读 · 0 评论 -
第-6章-Python-应对反爬虫策略
编写爬虫的目的是自动获取站点的一些数据,而反爬虫则是利用技术手段防止爬虫爬很多初级爬虫非常简单,不管服务器压力,有时甚至会使网站宕机。保护数据,重要或涉及用户利益的数据不希望被别人爬取。商业竞争,多发生在同行之间,如电商。网络代理是一种特殊的网络服务,网络终端(客户端)通过这个服务(代理服务器)和另一个终端(服务器端)进行非直接的连接,简单点说就是利用代理服务器的 IP 上网。透明代理:服务器知道你用了代理 IP,并且知道你的真实 IP。原创 2024-05-17 23:20:43 · 1163 阅读 · 0 评论 -
第-10-章-使用pyecharts-进行数据展示
pyecharts 是一个用于生成 Echarts 图表的类库, Echarts 是百度开源的一个数据可视化JS 库。用 Echarts 生成的图可视化效果非常好,pyecharts 可以与 Python 进行对接,方便在Python 中直接使用数据生成图,生成结果是一个 HTML 文件,用浏览器打开即可看到效果。安装完成后,直接编写代码绘制地图,地图区域是无法显示的,需要另外安装地图文件。原创 2024-05-18 11:15:11 · 285 阅读 · 0 评论 -
第-1-章-Python-爬虫概念与-Web-基础
HTML(Hypertext Markup Languag,超文本标记语言)。我们来拆分这个名词,首先是超文本,文本一般指的是文字和符号,而在 HTML 中则可以是图片、音视频等其他媒体,远远超出了文本的范畴,所以称为超文本。其次是标记,在 HTML 中所有内容都叫作标记,用一个标记来包含一块内容,表示其作用,比如标签用来标记一个文章段落。HTML 标签语法。原创 2024-05-16 17:30:06 · 815 阅读 · 0 评论 -
第-2章Python-爬虫基本库的使用
爬虫并没有你想象中的复杂,很多初学者一开始就担忧,比如怎么写代码去构造请求,怎么把请求发出去,怎么接收服务器的响应,需不需要学习 TCP/IP 四层模型的每一层的作用。其实,你不用担忧那么多,Python 已经为我们提供了一个功能齐全的类库——urllib,你只需要关心:要爬取哪些链接、要用到哪些请求头和参数。除此之外,还有一些功能更加强大的第三方类库等。原创 2024-05-17 21:37:34 · 867 阅读 · 0 评论 -
第-8章-Python-爬虫框架-Scrapy(下)
Docker 是基于 Linux 容器的封装,提供了简单易用的容器使用接口。而 Linux 容器是一种虚拟化技术,不是模拟一个完整的系统,而是对进程进行隔离(在进程外嵌套一层),使得进程访问到的各种资源都是虚拟的,从而达到与底层系统隔离的目的。可以简单地将它理解成更轻量级的虚拟机。另外,因为容器是进程级别的,相比虚拟机而言,启动速度更快,资源占用更少。原创 2024-05-17 23:48:58 · 706 阅读 · 0 评论 -
第-7章-Python-爬虫框架-Scrapy(上)
Scrapy,是用 Python 语言开发的一个快速、高层次的屏幕/Web 抓取框架,用于抓取 Web 站点并从页面中提取结构化数据。Scrapy 使用 Twisted 异步网络请求框架来处理网络通信,不需要额外实现异步框架,而且包含各种中间件接口,能灵活地实现各种需求。Scrapy 的用途广泛,常用于数据挖掘、监测和自动化测试。7.1.1 Scrapy 相关信息官网:https://scrapy.org/官方文档:https://doc.scrapy.org/en/latest/原创 2024-05-17 23:28:22 · 551 阅读 · 0 评论 -
第-9章-数据分析案例:Python-岗位行情
我们可以进行词频统计,即统计每个词语出现的次数,然后按照比例生成词云。而生成词云可以利用 Wordcloud 库。原创 2024-05-18 11:13:44 · 1051 阅读 · 0 评论