自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 资源 (1)
  • 收藏
  • 关注

原创 爬虫数据储存—CSV文件

爬虫数据储存—CSV文件一、什么是CSV文件逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。二、CSV文件特点:1.以.csv作为结尾。2.一般以逗号作为分隔符,当然也可以不是逗号。3.每一行代表一个数据,以指定的分隔符分隔。4.可以有表头,也可以没有表头...

2019-10-31 10:51:49 6201 1

原创 1.爬虫数据储存——Excel环境配置

爬虫数据储存——Excel环境配置一、python处理excel文件两种方式:1.读取excel文件当我们需要读取excel文件的时候,需要用到xlrd库。2.写出excel文件当我们需要写出excel文件的时候,需要用到xlwt库。二、xlrd库和xlwt库的安装1.在线安装(1)xlrd库的安装pip install xlrd(2)xlwt库的安装...

2019-10-28 21:27:50 2960

原创 8.爬虫数据提取——bs4的解析引擎介绍

爬虫数据提取——bs4的解析引擎介绍在使用requests库获取到html字符串之后,接下来我们便可以使用bs4库对其进行解析,比如:from bs4 import BeautifulSoup#content为待解析的html字符串#lxml为bs4的解析器[解析器有不同的选择]soup = BeautifulSoup(content,"lxml")在这里我们需要自行选择不...

2019-10-28 11:26:19 3085

原创 7.爬虫数据提取——BeautifulSoup4库

BeautifulSoup4库一、什么是BeautifulSoup4库?和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。简单来说,Beautiful Soup只是一个从html字符串提取数据的工具而已。二、性能差异?lxml 只会局部遍历,Beautiful Soup 是基于HTML DOM(...

2019-10-28 10:40:54 3014

原创 5.爬虫数据提取——正则表达式

爬虫数据提取——正则表达式一、什么是正则表达式?正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。二、正则表达式学习方式【由简单到复杂,由语法到应用】1.匹配单个字符2.匹配多个字符3.正则表达式应用实例4.正则表达式应用于htm...

2019-10-28 09:55:22 3524

原创 6.爬虫数据提取——正则表达式

一、单字符匹配规则方式 描述 点(.) 匹配任意字符 \d 匹配任意数字 \D 匹配任意非数字 \s 匹配空白字符 \w 匹配小写的a-z、大写A-Z、数字0-9和下划线_ \W 匹配除小写\w之外的内容 [ ] 组合方式进行匹配,满足[ ]内的均可匹配 二、多字符匹配规则方式 描述 星号(*) ...

2019-10-24 22:58:48 3050

原创 Anaconda的虚拟环境

1.查看当前的虚拟环境命令:conda env list2.创建虚拟环境命令:conda create -n env_name python=X.X(2.7、3.6等)3.activate虚拟环境命令:activateenv_name4.关闭(退出)虚拟环境命令:deactivate5.删除虚拟环境(1)命令:conda remove ...

2019-10-23 22:46:59 4305

原创 4.爬虫数据提取——lxml库的环境配置

爬虫数据提取——lxml库的安装一、什么是lxml?在我们获取html页面之后,可以使用xpath语法进行数据提取,但是,直接在获取的content里面使用xpath语法进行数据提取吗?显然不是的,获取的内容仅仅只是一个包含所有内容的html字符串,Xpath语法是无法直接作用于这样的一个字符串进行数据提取的,所以,在这里,我们需要使用lxml这样一个库对html这样的字符串进行解析,将它...

2019-10-21 20:58:08 3294

原创 3.爬虫数据提取——Xpath语法

爬虫数据提取——Xpath语法一、写在前面HTML页面是由标签构成的,这些标签就像整个族谱一样排列有序,比如:xxx ->> 太爷爷 ->> 爷爷 ->> 爸爸 ->> 儿子 ->> 孙子 ->> xxxxxx ->> body ->>script &div@id='wr...

2019-10-21 20:23:37 4825

原创 2.爬虫数据提取——Xpath环境配置

爬虫数据提取——Xpath环境配置一、什么是Xpath语法?xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历。简单来说,我们的数据是超文本数据,想要获取超文本数据里面的内容,就要按照一定规则来进行数据的获取,这种规则就叫做Xpath语法。二、通过规则怎样定位数据?XPath 用于在 HT...

2019-10-21 18:23:20 3587

原创 1.爬虫数据提取——方法总结

爬虫数据提取——方法总结在获取了我们想要的html页面之后,接下来的问题就是如何将我们需要的数据给提取下来,一般来说有三种方式,分别是Xpath语法,正则表达式和bs4库,只要掌握了这三种方法,可以说html页面上没有什么数据是我们获取不到的。我们来对这三种方式做一个简单的总结:解析方式 解析速度 难度 Xpath 快 中等 bs4 慢 容易...

2019-10-21 16:08:06 4813

原创 4.爬虫基础——你真的了解url(网址)吗?

1.什么是URL?URL:(Uniform Resource Locator,统一资源定位符),用于定位网络上的资源,每一个信息资源在网上都有唯一的一个地址,俗称网址。比如:打开https://www.baidu.com/,就会显示如下网页。2.URL的组成?URL遵守以下的语法规则:scheme://host:port/path/?query-string=xxx#anch...

2019-10-20 11:14:47 5956

原创 3.爬虫基础——网络请求

网络请求1.网络请求的分类:网络请求主要有八种,如下表所示:HTTP请求 请求方式 描述 GET 发送请求来获得服务器上的资源【比如请求百度的页面】 POST 向服务器提交资源让服务器处理【比如百度云盘上传资源】 HEAD 主要用来检查资源或超链接...

2019-10-19 21:42:04 4390

原创 hadoop安全模式无法关闭问题

问题描述:今天在hadoop上传递数据时,由于数据文件太大,运行到一半突然复制中断,导致出现了安全模式,报“name node is in safe mode ”的错误提示。安全模式导致的结果就是无法上传数据到hdfs以及删除hdfs的数据,简单来说,数据都变为了只读模式,只能看,不能操作,挺麻烦的一件事情。简单介绍一下安全模式:1.安全模式时hadoop集群的一个安全保障方式。2.h...

2019-10-17 00:16:35 7961 2

原创 豆瓣电影影评爬取---最受欢迎的影评[xpath语法]

豆瓣电影影评爬取---最受欢迎的影评[xpath语法]1.基础环境配置:requests-->版本:2.12.4lxml-->版本:3.7.22.爬取网址:https://movie.douban.com/review/best/?start=0注意问题:(1)由于时间的不同,最受欢迎影评可能发生改变,所以爬取到的结果有可能不一致。(2)该页面仅是第...

2019-10-13 16:57:19 4693 1

原创 Python爬虫实例--新浪热搜榜[正则表达式]

Python爬虫实例--新浪热搜榜[正则表达式]1.基础环境配置:requests-->版本:2.12.4re-->:Python自带,无需安装2.网页分析很容易从html源码中看到,热搜内容在html的<a></a>标签内,热度在<span></span>标签内,我们可以利用这一点用正则表达式进行数据抓取。...

2019-10-13 16:23:57 3922 2

原创 Python爬虫实例--新浪热搜榜[xpath语法]

Python爬虫实例--新浪热搜榜[xpath语法]1.基础环境配置:requests-->版本:2.12.4lxml-->版本:3.7.22.网页分析很容易从html源码中看到,热搜内容在html的<a></a>标签内,热度在<span></span>标签内,我们可以利用这一点用xpath语法进行数据的提取。...

2019-10-12 13:11:41 3671

原创 谈一下Python虚拟环境

一、何为虚拟环境说虚拟环境前,我们先来谈一下Python环境,如果想编写Python代码,肯定需要Python环境,当前的Python环境也就是指Python编译器,对于windows来说,就是python.exe程序,我们需要安装官方的Python,【或者其它的编译器环境】这样才能够写Python的代码。随之而来的问题是:我的非常多的Python库怎样处理?对于一般萌新来说,我的所有的P...

2019-10-11 15:37:26 3210

原创 Anaconda安装库方式总结

一、在线安装:以安装PyPDF2库为例:命令:pip install PyPDF2二、离线安装tar.gz文件以PyPDF2库为例:首先下载好PyPDF2库对应的tar.gz包,然后执行命令:pip installPyPDF2-1.26.0.tar.gz三、离线安装.whl文件以imbalanced_learn库为例:首先下载好opencv库的.whl...

2019-10-10 23:19:43 10559 1

原创 2.爬虫基础——为什么学习爬虫?

我们来解答上一次提出的问题:为什么花费这么大力气去html页面提取信息干什么?还不如直接打开原始页面进行复制粘贴呢,这不是一样的吗?第一点:个人复制粘贴的话,一个网页还好,十个网页也还行吧,但是一百个,一千个甚至更多呢?所以说,人力是不足以完成这个工作的。因此需要爬虫的参与。第二点:爬虫模拟的是人的状态。比如,我想要进行复制粘贴所有的影评信息,是不是应该按顺序打开每一个的影评页面呢?举一个...

2019-10-10 10:50:11 3088

原创 1.爬虫基础——了解html&什么是爬虫

众所周知:我们上网浏览的网页,他们的本质是一个又一个html页面。那什么是html呢?可以这么理解,编写JAVA有JAVA的语言逻辑,编写Python有Python的语言逻辑,编写网页就需要遵从html的语言逻辑,而编写好了的html就可以显示出来我们所看到的网页了。如下示例:图1图2正如我们在上面所看到的,当我们查看https://www.baidu.com/这个网址的时候,...

2019-10-10 09:37:20 3750

pai【100W位】.txt

圆周率pai的前100W位,每一位都有,不存在缺少的情况。 圆周率pai的前100W位,每一位都有,不存在缺少的情况。 圆周率pai的前100W位,每一位都有,不存在缺少的情况。

2019-10-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除