Python
文章平均质量分 80
9号信箱
这个作者很懒,什么都没留下…
展开
-
Python安装第三方库的一般方法以及Python2.7和Python3.6共存时,第三方库的安装方法
本文主要介绍使用pip工具安装第三方库的一般办法,以及当本机同时安装有python2.7和python3.6时,如何将第三方库安装到指定的pyhton版本中。1、一般情况下的安装cmd中执行:pip installrequests后出现:(如果大家没有出现这种情况可以忽略)图中黄色英文的基本意思就是我的pip版本较低,需要通过“python –m pip install --upgrade pip...原创 2018-03-30 13:52:48 · 6522 阅读 · 1 评论 -
Python指定文件编码的方式及区别
参考文档:http://www.python.org/dev/peps/pep-0263/我们在写python代码的时候常常会加上如“# -*- coding:utf-8 -*”这样的注释,它的作用是什么呢?# -*- coding:utf-8 -*-的主要作用是指定文件编码为utf-8, 因为一般默认的是ASCII码,如果要在文件里面写中文,运行时会出现乱码,加上这句之后会把文件编码...原创 2019-04-30 13:17:19 · 2826 阅读 · 0 评论 -
python爬取并列标题(相同的标签,不同内容)的方法
如下图,我需要爬取选框中的英文标题内容,但是它和中文标题的标签是一样的,这时候我们该如何获取呢?我们也许会通过“div”->class_='hd'->a->span的标签层级来获取框选内容,但是这样也会得到中文的titile,而我们使用“div”->class_='hd'->a.contents则会定位到a标签下所有的子标签内容(包括换行符‘\n’),再...原创 2019-05-06 14:09:50 · 12480 阅读 · 4 评论 -
使用xpath爬取个人博客第一页中的文章标题
import requestsimport lxml.htmlheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}r = requests.get('https://...原创 2019-05-09 16:13:04 · 683 阅读 · 0 评论 -
python+selenium模拟浏览器自动化操作的简单实例
1、python+selenium模拟百度搜索selenium#python+selenium模拟百度搜索seleniumimport timefrom selenium import webdriver #导入selenum的webdriver包driver=webdriver.Chrome() #获取浏览器的对象(此处的driver可以定义为任意...原创 2019-05-30 21:00:10 · 1078 阅读 · 0 评论 -
python+selenium爬虫小项目(爱彼迎深圳房源信息爬取)
这是房源的地址:第1页:https://www.airbnb.cn/s/Shenzhen--China/homes?refinement_paths%5B%5D=%2Fhomes&place_id=ChIJkVLh0Aj0AzQRyYCStw1V7v0&query=Shenzhen%2C%20China&allow_override%5B%5D=&s_tag=v...原创 2019-06-05 21:37:00 · 4819 阅读 · 1 评论 -
【Python爬虫练习】python爬取安居客二级网页二手房信息(selenium)
在每次进行爬虫代码的编写之前,我们的第一步也是最重要的一步就是分析我们的网页。在我们本次的例子中,我们需要在每一页获取每一个具体房源的链接,然后进入到二级网页获取详细的信息,然后再返回上一级网页重复此过程。通过分析我们发现在爬取过程中速度比较慢,所以我们还可以通过禁用谷歌浏览器图片、JavaScript等方式提升爬虫爬取速度。爬取的网站首页地址:https://beijing.anju...原创 2019-06-12 17:37:51 · 3826 阅读 · 2 评论 -
python正则表达式爬取博客标题
import requestsimport reheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'}for i in range(1,8): link='...原创 2019-06-06 19:50:36 · 1455 阅读 · 0 评论 -
python爬虫之使用BeautifulSoup爬取博客标题以及读写数据(txt、csv文件格式)操作
1.内容爬取首先上代码:import requestsfrom bs4 import BeautifulSoupheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537....原创 2019-06-09 14:38:54 · 2026 阅读 · 2 评论 -
python +selenium禁用谷歌浏览器图片、JavaScript
import requestsfrom selenium import webdriveroptions=webdriver.ChromeOptions()prefs = { 'profile.default_content_setting_values': { 'images': 2, 'jav...原创 2019-06-03 21:30:14 · 2901 阅读 · 0 评论 -
【Python爬虫练习】虎扑社区步行街版块首页信息爬取(BeautifulSoup+MongoDB)
严正声明:爬虫仅用于学习研究,不做商业或者其它非法用途!首先我们要爬取的网页地址为:https://bbs.hupu.com/bxj页面的样子是这样的:红色圈出来的部分就是我们所要爬取的内容信息。接下来最重要的自然是页面元素的分析,这个就不多说了,这是爬虫代码编写的前提,也是最最基本、最最重要的部分。简单的来说就是 右键想要爬取的内容,选择“检查”。需要大家了解一点h...原创 2019-06-20 16:56:18 · 830 阅读 · 0 评论 -
python中的content输出和text输出区别以及编码问题
目录content输出和text输出区别优秀的输出显示的编码解决方法 content输出和text输出区别 先上代码:#_*_ coding=UTF-8 _*_import requestsr=requests.get('http://www.baidu.com')print(r.content)print(r.text)print(r.encoding)...原创 2019-05-08 14:07:21 · 3596 阅读 · 0 评论 -
python中print()打印去掉换行
我们知道,在python中,使用print()打印的时候,会默认添加换行符,举个例子:print('hello')print('world')输出:helloworld如果我们理想的状态是需要打印“hello world”怎么办呢?也就是去掉这个默认的换行该怎么做呢?我们可以这样:print('hello',end=' ')print('world...原创 2019-05-08 13:32:16 · 20164 阅读 · 2 评论 -
深入理解Python中的+=操作
1、在Python中,有一个特性是对于int类型,还有字符串类型的这种固定类型的对象,一旦赋值,就不能改变。因此,当Python中的int类型变量执行了+=操作,它和我们以前接触的其它语言有所不同。在前面我们曾经介绍过Python中的对象引用这个概念,根据这个原理,当int 类型变量 a=5,例如当执行a+=2的时候,Python的实际做法是先给a+2的值也就是7存在一块新的内存中去,然后将a这个...原创 2018-04-07 21:46:34 · 4417 阅读 · 0 评论 -
Python中的对象引用分析
我们在使用Python的时候,会很容易的发现Python代码非常的简洁。举一个例子,在我们使用字符串的时候,我们通常不需要声明特定的变量,我们可以这样使用:>>>x="abc"在上面的这句代码中,其实语法就是简单地ObjectReference=value,我们没有预先声明x,也没有指定x的类型,在执行这条语句的时候,Python会创建一个字符串“abc”对象,同时还创建了一个对...原创 2018-04-02 23:05:33 · 605 阅读 · 0 评论 -
CentOS安装Python3详细步骤,亲测(命令行安装)
本人使用的是centos6.6,该系统已经自带了python2,但是由于python3和python2在很多使用上还存在着较大区别,并且本着学习的态度决定尝试安装一次。由于一开始忘了截图,所以本文只有所有的安装命令,命令完全正确,亲测可以使用,所以在此发文记录一下。说明:python2和python3各有特点,目前很多库支持较多的还是python2,站在学习的角度,建议大家两个版本都保留着...原创 2018-07-29 16:48:41 · 5894 阅读 · 0 评论 -
当同时安装Python2和Python3后,如何兼容并切换使用详解(比如pip使用)
由于历史原因,Python有两个大的版本分支,Python2和Python3,又由于一些库只支持某个版本分支,所以需要在电脑上同时安装Python2和Python3,因此如何让两个版本的Python兼容,如何让脚本在对应的Python版本上运行,这个是值得总结的。对于Ubuntu 16.04 LTS版本来说,Python2(2.7.12)和Python3(3.5.2)默认同时安装,默认的pyt...转载 2018-07-30 23:08:57 · 304 阅读 · 0 评论 -
记录windows平台下初次尝试python cgi代码的一次浏览器提示500错误的经历
这一次,尝试了windows平台下的cgi程序,很奇怪的是出现了下面的错误提示:Internal Server ErrorThe server encountered an internal error or misconfiguration and was unable to complete your request.Please contact the server administ...原创 2018-08-09 18:56:46 · 1016 阅读 · 0 评论 -
python代码编写一般性错误检查条例(个人笔记)
1、python解释器路径包含,形如“#!D:\Program Files\Python3”;2、当含有中文字符时,包含-*- coding: utf-8 -*-;3、缩进对其问题;4、header问题(“\r\n”),print ("Content-type:text/html\r\n")5、在编写python cgi程序的时候,html和.py文件关联,使用get方法传递信息的...原创 2018-08-09 22:56:48 · 384 阅读 · 0 评论 -
python数据持久存储:pickle模块的基本使用
python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储;通过pickle模块的反序列化操作,我们能够从文件中创建上一次程序保存的对象。基本接口:pickle.dump(obj, file, [,protocol])注解:将对象obj保存到文件file中去。protocol:序列化使用的协议版本...原创 2018-08-06 18:21:04 · 185 阅读 · 0 评论 -
windows下搭建python cgi编程环境(亲测)
步骤1、自行下载并安装python、apache(注意使用与自己电脑位数匹配的版本)2、配置apache参数:修改配置文件 conf/httpd.conf,(1)搜索 Options Indexes FollowSymLinks,改为Options Indexes FollowSymLinks ExecCGI (2)把 #AddHandler cgi-script .cgi 改...原创 2018-08-07 16:08:29 · 9718 阅读 · 5 评论 -
python爬取不到数据的可能原因之一
自学Python爬虫,感觉自己的代码没有什么问题,但是输出却没有结果,一开始陷入了沉思,偶然想起,很多网站为了反爬虫,对于没有“头”的爬虫,网站会拒绝请求。于是,抱着试一试的态度,添加了爬虫的“头”,结果能够正常显示。这里我是在尝试抓取“瞬眼天下”网页的小标题,代码如下:#爬取顺眼天下网页一页的标题import requestsfrom bs4 import BeautifulSou...原创 2018-11-20 14:55:25 · 23282 阅读 · 9 评论 -
Python爬取网页小标题
首先附上代码:#爬取瞬眼天下网页多页的小标题import requestsfrom bs4 import BeautifulSoupheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 S...原创 2018-11-20 17:22:44 · 3847 阅读 · 0 评论 -
Mangodb安装教程
下载MongoDB社区版。打开Web浏览器并访问MongoDB下载中心。 下载中心应显示MongoDB社区服务器选项卡。如果没有,请选择“ 服务器”,然后单击“ MongoDB社区服务器”选项卡。 在Version下拉列表中,选择与MongoDB Server 4.0对应的版本。下载中心始终显示最新的可用点版本。对于较旧的版本,请单击右侧导航框中的所有版本二进制文件。 在操作系统下拉列表...原创 2018-11-21 18:51:28 · 879 阅读 · 0 评论 -
【Python爬虫练习】虎扑社区步行街版块首页信息爬取多线程版本
#_*_ coding=UTF-8 _*_import requestsfrom bs4 import BeautifulSoupimport queue as Queueimport threadingheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHT...原创 2019-06-22 11:46:43 · 584 阅读 · 0 评论