python与爬虫
文章平均质量分 56
love666666shen
Golang、Python、Java、Scala学习者,对Golang、大数据领域、深度学习等方面的知识比较感兴趣,志同道合的博友可以多多交流、相互学习、每天进步一点点!!!
展开
-
Windows系统配置python、pip及setuptools等依赖包
如果运行python程序时,提示缺少相关依赖包,通过pip下载不下来,可以通过下载相关依赖包的zip或tar.gz文件,解压后进入该文件目录,shift右键选择打开命令行工具,执行里面的setup.py文件去安装,命令python setup.py install。dateutil包:https://pypi.org/project/python-dateutil/#filessix包:https://pypi.python.org/pypi/six/或者通过https://pypi.org/搜索原创 2021-10-16 22:04:33 · 543 阅读 · 0 评论 -
windows10安装python依赖,报错can‘t create or remove files in install directory
执行python setup.py安装依赖时,报如下错误:can’t create or remove files in install directory。>> python setup.py installrunning installerror: can't create or remove files in install directoryThe following error occurred while trying to add or remove files in t原创 2021-10-08 16:36:06 · 2466 阅读 · 2 评论 -
python中参数传递之位置传递、关键字传递、包裹传递与解包裹
1.python中的位置传递:先用形式参数定义,然后在调用时对应位置使用实参(具体的数值)调用def sum(a, b): return a + bsum(5, 6)原创 2017-08-13 16:18:53 · 9554 阅读 · 2 评论 -
Xshell登录进入CentOS 6.5系统后,Python交互模式和数据库模式下,出现乱码的问题及解决方法
在用Xshell登录进入linux后,默认情况下如果敲击delete,backspace键,上下左右方向键时会产生^H、^[[A等乱码问题,这通常是因为编码不匹配的问题。1.中文乱码问题用 Xshell 连接 linux 系统时,显示数据到控制台,中文为乱码。查看当前使用的编码格式:[root@localhost share_data]# echo $LANGz原创 2017-08-22 15:04:19 · 846 阅读 · 0 评论 -
python爬虫:BeautifulSoup 使用select方法的使用
1 html = """ 2 html>head>title>The Dormouse's storytitle>head> 3 body> 4 p class="title" name="dromouse">b>The Dormouse's storyb>p> 5 p class="story">Once upon a time there were three little siste原创 2017-08-23 21:43:58 · 26166 阅读 · 0 评论 -
python beautiful soup库的超详细用法
参考:http://cuiqingcai.com/1319.htmlBeautiful Soup 4.2.0 文档1. Beautiful Soup 简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:Beautiful Soup提供一些简单的、python式的函数用来处理转载 2017-08-23 21:55:15 · 110418 阅读 · 12 评论 -
使用pysftp模块或者paramiko模块时出现IOError: [Errno 13] Permission denied: 或IOError: [Errno 2]
最近,要使用python编写程序实现从本地上传文件到FTP服务器,从服务器下载文件到本地这样一个流程。首先,在网上查了需要使用的python模块,看到使用pysftp和paramiko模块中的put和get方法都能实现。于是,就尝试了一下,可是莫名了出现了许多问题,有IOError: [Errno 13] Permission denied:类型的,有IOError: [Errno 2] No s原创 2017-10-17 11:50:45 · 20338 阅读 · 4 评论 -
【整理】Python中self和__init__的含义与使用
刚开始学习Python的类写法的时候觉得很是麻烦,为什么定义时需要而调用时又不需要,为什么不能内部简化从而减少我们敲击键盘的次数?你看完这篇文章后就会明白所有的疑问。self代表类的实例,而非类。个人理解,self就相当于java中的this,其可以调用类中的属性和方法,作用相当于本例的实例化对象。实例来说明原创 2017-10-10 10:40:19 · 20797 阅读 · 4 评论 -
Jython 调用 Java 碰壁全纪录
JavaClass 的定义public class JavaClass { private String str = ""; public JavaClass() { this.str = "JavaClass Init"; } public String getStr() { return str; }转载 2017-10-23 17:02:14 · 2521 阅读 · 0 评论 -
Python + Paramiko实现sftp文件上传下载
最近在测试服务器那块,看了下Paramiko模块,一直都是用FileZilla工具,想了想,持续集成,更新代码可以用Parmmiko完成,还是不错的Paramiko是用python语言写的一个模块,远程连接到Linux服务器,查看上面的日志状态,批量配置远程服务器,文件上传,文件下载等初始化一些参数:host = "120.24.239.214"port = 22timeo转载 2017-10-16 17:52:20 · 12611 阅读 · 1 评论 -
Python结合hdfs模块操作HDFS分布式文件系统
使用python操作hdfs本身并不难,只不过是把对应的shell 功能“翻译”成高级语言,我这里选用的是hdfs,下边的实例都是基于hdfs包进行的。1:安装由于我的是windows环境(linux其实也一样),只要有pip或者setup_install安装起来都是很方便的?1pip install hdfs转载 2017-10-17 15:48:24 · 10349 阅读 · 3 评论 -
python之socket编程
本章内容 1,插座 2,IO多路复用 3,SocketServer的Socket插座起源于Unix的,而在Unix / Linux的基本哲学之一就是“一切皆文件”,对于文件用【打开】【读写】【关闭】模式来操作.socket就是该模式的一个实现,插座即是一种特殊的文件,一些插座函数就是对其进行的操作(读/写IO,打开,关闭)基本上,套接字转载 2017-10-25 11:52:20 · 2509 阅读 · 0 评论 -
从零开始的 Python Scrapy爬虫速成指南
序本文主要内容:以最短的时间写一个最简单的爬虫,可以抓取论坛的帖子标题和帖子内容。本文受众:没写过爬虫的萌新。入门0.准备工作需要准备的东西: Python、scrapy、一个IDE或者随便什么文本编辑工具。1.技术部已经研究决定了,你来写爬虫。随便建一个工作目录,然后用命令行建立一个工程,工程名为miao,可以替换为你喜欢的名字,创建爬虫工程的命令为:...转载 2018-02-23 21:25:51 · 8922 阅读 · 2 评论 -
OpenCV 下载驿站(百度云盘下载),另附国内外开源镜像
Lib\site-packages原创 2017-07-31 16:54:01 · 54841 阅读 · 9 评论 -
资源 | 基于Python的开源人脸识别库:离线识别率高达99.38%
仅用 Python 和命令行就可以实现人脸识别的库开源了。该库使用 dlib 顶尖的深度学习人脸识别技术构建,在户外脸部检测数据库基准(Labeled Faces in the Wild benchmark)上的准确率高达 99.38%。该项目是要构建一款免费、开源、实时、离线的网络 app,支持组织者使用人脸识别技术或二维码识别所有受邀人员。有了世界上转载 2017-08-05 21:34:26 · 6199 阅读 · 1 评论 -
Python 2.x中常见字符编码和解码方面的错误及其解决办法 总结
Python 2.x中的字符编码,设计的的确不好,导致初学者,甚至是即使用Python很长时间的人,都会经常遇到字符编解码方面的错误。下面就把一些常见情,尽量的都整理出来,并给出相应的解决办法。转载 2017-05-13 17:04:13 · 651 阅读 · 0 评论 -
Windows7下安装Python图像处理库PIL、pytesser
Windows7 64位下安装Python图像处理库PIL、pytesser原创 2017-05-05 16:39:05 · 1625 阅读 · 0 评论 -
Scrapy爬虫中使用Splash抓取动态JS页面
目前,为了加速页面的加载速度,页面的很多部分都是用JS生成的,而对于用scrapy爬虫来说就是一个很大的问题,因为scrapy没有JS engine,所以爬取的都是静态页面,对于JS生成的动态页面都无法获得。解决方案:利用第三方中间件来提供JS渲染服务: scrapy-splash 等。利用webkit或者基于webkit库Splash简介:Splash是一个Jav原创 2017-05-25 14:44:37 · 2463 阅读 · 0 评论 -
字符编码和python使用encode,decode转换utf-8, gbk, gb2312的问题
ASCII码标准ASCII码使用7位二进制数(前128个ASCII码),表示大写或小写字母、数字0到9、标点符号以及在美式英语中使用的特殊控制字符。在标准ASCII码中,最高位(b7)用作奇偶校验位,所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分奇校验和偶校验两种。奇校验规定:在正确代码的一个字节中1的个数必须是奇数,若非奇数,则在最高位b7位添1;偶校验转载 2017-05-25 20:44:54 · 5218 阅读 · 0 评论 -
Python网络爬虫阶段总结
学习python爬虫有一个月了,现在将学习的东西和遇到的问题做一个阶段总结,以作复习备用,另对于python爬虫感兴趣的,如果能帮到你们少走些弯路,那也是极好的。原创 2017-05-16 22:07:19 · 21701 阅读 · 0 评论 -
解决'utf8'编解码器无法解码字节0xa5(0xa3也可以)
在解析网页,或者一些特殊的字符串编码解码转换时经常出现类似UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xa5 in position 108: ordinal not in range(128)或者UnicodeDecodeError: 'utf8' codec can't decode byte 0xa3 in position 17: invalid start byte 的问题。原创 2017-05-11 23:08:34 · 17552 阅读 · 0 评论 -
访问127.0.0.1出错或者显示的不是想要的信息
最近在使用IP代理池写程序,将筛选出的代理IP放在本地服务器127.0.0.1上,代理池程序IPProxys默认的端口为8000,同时端口可以在config.py文件中配置。但当获取的IP代理过多或者到了一定时间(比如超过12个小时),就可能出现如下图的问题,此时只要把mysql数据库中的代理ip数据清空,重新启动代理IP池的程序就可以了。原创 2017-06-16 10:38:24 · 1414 阅读 · 0 评论 -
解决python多版本,yum无法使用的情况
最近要学习TensorFlow,需要安装python3.5,而centos6.5系统自带的python2.6.6。由于安装Python版本过多导致链接混乱,最终yum无法使用。经过查阅资料后,已经解决该问题原创 2017-07-15 21:37:41 · 7553 阅读 · 2 评论 -
centos6.5系统下将Python2.6.6升级为Python3.5.0
最近想学习深度学习,需要安装TensorFlow,而TensorFlow一般基于python2.7或者python3.3+。我使用的Linux系统是centos6.5,其自带的python版本号为2.6.6,所以需要将其升级为2.7或者3.3以上的版本。同时考虑到最新的TensorFlow版本及其他一些开源包需要高版本的python,所以这里讲centos6.5自带的python2.6.6升级为python3.5。原创 2017-07-15 19:52:38 · 5409 阅读 · 0 评论 -
在Anaconda中安装(非自带的)python包或者更新已有的python包,解决sklearn无法使用的问题
我之前安装的是Anaconda,将许多包已经打包安装在一起,没想到没有捎带将seaborn安装上。我又找了找Anaconda的安装路径,确认没有安装该包。如果这个包不安装就会影响到后面的画图工作。问题是:我怎么在Anaconda的框架下面成功安装像seaborn一样的其他python包呢?原创 2017-07-18 17:57:13 · 14073 阅读 · 0 评论 -
Python爬虫利器之Beautiful Soup的用法
上一节我们介绍了正则表达式,它的内容其实还是蛮多的,如果一个正则匹配稍有差池,那可能程序就处在永久的循环之中,而且有的小伙伴们也对写正则表达式的写法用得不熟练,没关系,我们还有一个更强大的工具,叫Beautiful Soup,有了它我们可以很方便地提取出HTML或XML标签中的内容,实在是方便,这一节就让我们一起来感受一下Beautiful Soup的强大吧。1. Beautiful So转载 2017-08-01 16:59:28 · 686 阅读 · 0 评论 -
TensorFlow中常见的由于API版本问题导致的错误汇总
大部分是Api版本问题:AttributeError: 'module' object has no attribute 'SummaryWriter'tf.train.SummaryWriter改为:tf.summary.FileWriterAttributeError: 'module' object has no attribute 'summ原创 2017-08-10 18:03:30 · 1078 阅读 · 0 评论 -
Scrapy入门教程
在这篇入门教程中,我们假定你已经安装了Scrapy。如果你还没有安装,那么请参考安装指南。我们将使用开放目录项目(dmoz)作为抓取的例子。这篇入门教程将引导你完成如下任务:创建一个新的Scrapy项目定义提取的Item写一个Spider用来爬行站点,并提取Items写一个Item Pipeline用来存储提取出的ItemsScrapy是由Python编写的。如果你转载 2017-05-23 00:26:08 · 415 阅读 · 0 评论