自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (5)
  • 问答 (2)
  • 收藏
  • 关注

原创 关于使用正则表达式解析网页内容

关于使用正则表达式解析网页内容正则表达式用于对字符串进行操作,事先定义好特定的规则,利用这个规则对字符串进行过滤。对网页内容解析时,可以将源代码变为字符串,利用正则表达式进行匹配。常见的正则字符和含义模式描述模式描述.匹配任意字符,除了换行符\s匹配空白字符串*匹配前一个字符0次或多次\S匹配任何非空白字符串+匹配前一个字符1次或多次\d...

2019-07-12 14:38:00 3209

原创 Selenium动态网页抓取

动态网页抓取上次实现了静态网页抓取豆瓣读书Top250的书名,这次跟着同一本书,研究一下动态网页的抓取。动态网页简介动态网页和静态网页的区别就在于,静态网页展示的内容都在HTML源代码中,而动态网页常常使用AJAX技术实现后台与服务器的数据交换,就可以在不重新加载整个页面的情况下对网页进行局部更新。AJAX,全称是Asynchronous JavaScript And XML,即异步的Ja...

2019-07-11 19:48:31 1650

原创 Requests爬虫实践:豆瓣读书Top250数据

Requests爬虫实践:豆瓣读书Top250数据本次的实践项目是爬取豆瓣读书Top250的书籍名称和网页地址参考书籍:《Python网络爬虫从入门到实践》书中爬的是电影数据,自己想爬个书籍数据看看,差别也不是很大了首先找到了豆瓣读书Top250的网页地址:https://book.douban.com/top250然后需要为其定制请求头Headers,如果请求头没有指定或者和实际网页不...

2019-07-06 13:09:09 955

原创 Python爬取静态网页操作

Python爬取静态网页参考书籍:唐松《Python网络爬虫从入门到实践》简介静态网页一般指纯粹的HTML格式的网页,对于爬虫来说,静态网页的数据都比较容易获取,利用好Requests库就能轻松发送HTTP请求,获取到网页的数据。Requests库的安装Requests库可以帮助我们获取到响应内容,再通过一些参数来满足我们的需求,它的安装也十分简单,对于Windows用户来说,在已经装好...

2019-07-05 19:05:42 2258 2

原创 重要的Python库概述

Python库概述最近在学习python数据分析基础,对python常用的库进行一个简要介绍和归纳。参考书籍:Wes McKinney 著《利用Python进行数据分析》NumPyNumPy的全称是Numerical Python,是Python科学计算的基础包,它为Python提供了快速数据处理功能,在数据处理方面,还可作为在算法之间传递数据的容器。由于它处理数值型数据要比内置的Pyth...

2019-07-04 10:40:24 466 1

Windows系统搭建Cygwin平台教程

这个我在自己安装时的总结,参考了各种教程之后的操作步骤,感觉各个版本的Cygwin安装时都会有一些不一样的地方,我也试过了很多个版本,希望对大家能有帮助

2019-04-21

现代软件工程(电子书)

《现代软件工程》电子版,陈松乔等编著,清华大学出版社

2019-04-11

线性表的顺序存储C语言代码

线性表是数据结构中比较基础的一种,这里用C语言实现了它的顺序存储

2019-04-11

墨刀——界面设计软件

可视化的前端设计软件,可实现移动应用界面的跳转及响应,便于进行功能初步设计

2019-04-11

文本编辑工具Sublime

Sublime Text Build 3126 x64,可用于网页编辑和代码编辑,简介的界面更加好用

2019-04-11

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除