自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 关于使用正则表达式解析网页内容

关于使用正则表达式解析网页内容 正则表达式用于对字符串进行操作,事先定义好特定的规则,利用这个规则对字符串进行过滤。对网页内容解析时,可以将源代码变为字符串,利用正则表达式进行匹配。 常见的正则字符和含义 模式 描述 模式 描述 . 匹配任意字符,除了换行符 \s 匹配空白字符串 ...

2019-07-12 14:38:00

阅读数 120

评论数 0

原创 Selenium动态网页抓取

动态网页抓取 上次实现了静态网页抓取豆瓣读书Top250的书名,这次跟着同一本书,研究一下动态网页的抓取。 动态网页简介 动态网页和静态网页的区别就在于,静态网页展示的内容都在HTML源代码中,而动态网页常常使用AJAX技术实现后台与服务器的数据交换,就可以在不重新加载整个页面的情况下对网页进行局...

2019-07-11 19:48:31

阅读数 385

评论数 0

原创 Requests爬虫实践:豆瓣读书Top250数据

Requests爬虫实践:豆瓣读书Top250数据 本次的实践项目是爬取豆瓣读书Top250的书籍名称和网页地址 参考书籍:《Python网络爬虫从入门到实践》 书中爬的是电影数据,自己想爬个书籍数据看看,差别也不是很大了 首先找到了豆瓣读书Top250的网页地址:https://book.dou...

2019-07-06 13:09:09

阅读数 78

评论数 0

原创 Python爬取静态网页操作

Python爬取静态网页 参考书籍:唐松《Python网络爬虫从入门到实践》 简介 静态网页一般指纯粹的HTML格式的网页,对于爬虫来说,静态网页的数据都比较容易获取,利用好Requests库就能轻松发送HTTP请求,获取到网页的数据。 Requests库的安装 Requests库可以帮助我们获取...

2019-07-05 19:05:42

阅读数 334

评论数 2

原创 重要的Python库概述

Python库概述 最近在学习python数据分析基础,对python常用的库进行一个简要介绍和归纳。 参考书籍:Wes McKinney 著《利用Python进行数据分析》 NumPy NumPy的全称是Numerical Python,是Python科学计算的基础包,它为Python提供了快速...

2019-07-04 10:40:24

阅读数 77

评论数 1

提示
确定要删除当前文章?
取消 删除