2019年10月_Python伊甸园

原创爬虫数据储存—CSV文件

爬虫数据储存—CSV文件一、什么是CSV文件逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。二、CSV文件特点：1.以.csv作为结尾。2.一般以逗号作为分隔符，当然也可以不是逗号。3.每一行代表一个数据，以指定的分隔符分隔。4.可以有表头，也可以没有表头...

2019-10-31 10:51:49 6201 1

原创 1.爬虫数据储存——Excel环境配置

爬虫数据储存——Excel环境配置一、python处理excel文件两种方式：1.读取excel文件当我们需要读取excel文件的时候，需要用到xlrd库。2.写出excel文件当我们需要写出excel文件的时候，需要用到xlwt库。二、xlrd库和xlwt库的安装1.在线安装(1)xlrd库的安装pip install xlrd(2)xlwt库的安装...

2019-10-28 21:27:50 2960

原创 8.爬虫数据提取——bs4的解析引擎介绍

爬虫数据提取——bs4的解析引擎介绍在使用requests库获取到html字符串之后，接下来我们便可以使用bs4库对其进行解析，比如：from bs4 import BeautifulSoup#content为待解析的html字符串#lxml为bs4的解析器[解析器有不同的选择]soup = BeautifulSoup(content,"lxml")在这里我们需要自行选择不...

2019-10-28 11:26:19 3085

原创 7.爬虫数据提取——BeautifulSoup4库

BeautifulSoup4库一、什么是BeautifulSoup4库？和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。简单来说，Beautiful Soup只是一个从html字符串提取数据的工具而已。二、性能差异？lxml 只会局部遍历，Beautiful Soup 是基于HTML DOM（...

2019-10-28 10:40:54 3014

原创 5.爬虫数据提取——正则表达式

爬虫数据提取——正则表达式一、什么是正则表达式？正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。二、正则表达式学习方式【由简单到复杂，由语法到应用】1.匹配单个字符2.匹配多个字符3.正则表达式应用实例4.正则表达式应用于htm...

2019-10-28 09:55:22 3524

原创 6.爬虫数据提取——正则表达式

一、单字符匹配规则方式描述点(.) 匹配任意字符 \d 匹配任意数字 \D 匹配任意非数字 \s 匹配空白字符 \w 匹配小写的a-z、大写A-Z、数字0-9和下划线_ \W 匹配除小写\w之外的内容 [ ] 组合方式进行匹配，满足[ ]内的均可匹配二、多字符匹配规则方式描述星号(*) ...

2019-10-24 22:58:48 3050

原创 Anaconda的虚拟环境

1.查看当前的虚拟环境命令：conda env list2.创建虚拟环境命令：conda create -n env_name python=X.X（2.7、3.6等）3.activate虚拟环境命令：activateenv_name4.关闭(退出)虚拟环境命令：deactivate5.删除虚拟环境(1)命令：conda remove ...

2019-10-23 22:46:59 4305

原创 4.爬虫数据提取——lxml库的环境配置

爬虫数据提取——lxml库的安装一、什么是lxml?在我们获取html页面之后，可以使用xpath语法进行数据提取，但是，直接在获取的content里面使用xpath语法进行数据提取吗？显然不是的，获取的内容仅仅只是一个包含所有内容的html字符串，Xpath语法是无法直接作用于这样的一个字符串进行数据提取的，所以，在这里，我们需要使用lxml这样一个库对html这样的字符串进行解析，将它...

2019-10-21 20:58:08 3294

原创 3.爬虫数据提取——Xpath语法

爬虫数据提取——Xpath语法一、写在前面HTML页面是由标签构成的，这些标签就像整个族谱一样排列有序，比如：xxx ->> 太爷爷 ->> 爷爷 ->> 爸爸 ->> 儿子 ->> 孙子 ->> xxxxxx ->> body ->>script &div@id='wr...

2019-10-21 20:23:37 4825

原创 2.爬虫数据提取——Xpath环境配置

爬虫数据提取——Xpath环境配置一、什么是Xpath语法？xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。简单来说，我们的数据是超文本数据，想要获取超文本数据里面的内容，就要按照一定规则来进行数据的获取，这种规则就叫做Xpath语法。二、通过规则怎样定位数据？XPath 用于在 HT...

2019-10-21 18:23:20 3587

原创 1.爬虫数据提取——方法总结

爬虫数据提取——方法总结在获取了我们想要的html页面之后，接下来的问题就是如何将我们需要的数据给提取下来，一般来说有三种方式，分别是Xpath语法，正则表达式和bs4库，只要掌握了这三种方法，可以说html页面上没有什么数据是我们获取不到的。我们来对这三种方式做一个简单的总结：解析方式解析速度难度 Xpath 快中等 bs4 慢容易...

2019-10-21 16:08:06 4813

原创 4.爬虫基础——你真的了解url(网址)吗？

1.什么是URL？URL:（Uniform Resource Locator,统一资源定位符），用于定位网络上的资源，每一个信息资源在网上都有唯一的一个地址，俗称网址。比如：打开https://www.baidu.com/，就会显示如下网页。2.URL的组成？URL遵守以下的语法规则：scheme://host:port/path/?query-string=xxx#anch...

2019-10-20 11:14:47 5956

原创 3.爬虫基础——网络请求

网络请求1.网络请求的分类：网络请求主要有八种，如下表所示：HTTP请求请求方式描述 GET 发送请求来获得服务器上的资源【比如请求百度的页面】 POST 向服务器提交资源让服务器处理【比如百度云盘上传资源】 HEAD 主要用来检查资源或超链接...

2019-10-19 21:42:04 4390

原创 hadoop安全模式无法关闭问题

问题描述：今天在hadoop上传递数据时，由于数据文件太大，运行到一半突然复制中断，导致出现了安全模式，报“name node is in safe mode ”的错误提示。安全模式导致的结果就是无法上传数据到hdfs以及删除hdfs的数据，简单来说，数据都变为了只读模式，只能看，不能操作，挺麻烦的一件事情。简单介绍一下安全模式：1.安全模式时hadoop集群的一个安全保障方式。2.h...

2019-10-17 00:16:35 7961 2

原创豆瓣电影影评爬取---最受欢迎的影评[xpath语法]

豆瓣电影影评爬取---最受欢迎的影评[xpath语法]1.基础环境配置：requests-->版本：2.12.4lxml-->版本：3.7.22.爬取网址：https://movie.douban.com/review/best/?start=0注意问题：(1)由于时间的不同，最受欢迎影评可能发生改变，所以爬取到的结果有可能不一致。(2)该页面仅是第...

2019-10-13 16:57:19 4693 1

原创 Python爬虫实例--新浪热搜榜[正则表达式]

Python爬虫实例--新浪热搜榜[正则表达式]1.基础环境配置：requests-->版本：2.12.4re-->:Python自带，无需安装2.网页分析很容易从html源码中看到，热搜内容在html的<a></a>标签内，热度在<span></span>标签内，我们可以利用这一点用正则表达式进行数据抓取。...

2019-10-13 16:23:57 3922 2

原创 Python爬虫实例--新浪热搜榜[xpath语法]

Python爬虫实例--新浪热搜榜[xpath语法]1.基础环境配置：requests-->版本：2.12.4lxml-->版本：3.7.22.网页分析很容易从html源码中看到，热搜内容在html的<a></a>标签内，热度在<span></span>标签内，我们可以利用这一点用xpath语法进行数据的提取。...

2019-10-12 13:11:41 3671

原创谈一下Python虚拟环境

一、何为虚拟环境说虚拟环境前，我们先来谈一下Python环境，如果想编写Python代码，肯定需要Python环境，当前的Python环境也就是指Python编译器，对于windows来说，就是python.exe程序，我们需要安装官方的Python，【或者其它的编译器环境】这样才能够写Python的代码。随之而来的问题是：我的非常多的Python库怎样处理？对于一般萌新来说，我的所有的P...

2019-10-11 15:37:26 3210

原创 Anaconda安装库方式总结

一、在线安装：以安装PyPDF2库为例：命令：pip install PyPDF2二、离线安装tar.gz文件以PyPDF2库为例：首先下载好PyPDF2库对应的tar.gz包，然后执行命令：pip installPyPDF2-1.26.0.tar.gz三、离线安装.whl文件以imbalanced_learn库为例：首先下载好opencv库的.whl...

2019-10-10 23:19:43 10559 1

原创 2.爬虫基础——为什么学习爬虫？

我们来解答上一次提出的问题：为什么花费这么大力气去html页面提取信息干什么？还不如直接打开原始页面进行复制粘贴呢，这不是一样的吗？第一点：个人复制粘贴的话，一个网页还好，十个网页也还行吧，但是一百个，一千个甚至更多呢？所以说，人力是不足以完成这个工作的。因此需要爬虫的参与。第二点：爬虫模拟的是人的状态。比如，我想要进行复制粘贴所有的影评信息，是不是应该按顺序打开每一个的影评页面呢？举一个...

2019-10-10 10:50:11 3088

原创 1.爬虫基础——了解html&什么是爬虫

众所周知：我们上网浏览的网页，他们的本质是一个又一个html页面。那什么是html呢？可以这么理解，编写JAVA有JAVA的语言逻辑，编写Python有Python的语言逻辑，编写网页就需要遵从html的语言逻辑，而编写好了的html就可以显示出来我们所看到的网页了。如下示例：图1图2正如我们在上面所看到的，当我们查看https://www.baidu.com/这个网址的时候，...

2019-10-10 09:37:20 3750

python伊甸园的博客