python 爬虫
文章平均质量分 61
fx_ly
这个作者很懒,什么都没留下…
展开
-
python 3.6 配置lxml+beautifulsoup+jsonpath模块
引言本篇文章主要介绍基于python 3.6 在Windows系统下 lxml,beautifulsoup,jsonpath模块安装教程。 lxml是python语言里处理XML以及HTML工作的功能最丰富和最容易使用的库。Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful...原创 2018-04-08 09:38:27 · 2081 阅读 · 0 评论 -
python 3.6 爬取json 文件报错'bytes' object has no attribute 'read'
使用json解析数据时,通常遇到这里就会出现问题'bytes' object has no attribute 'read',这是由于使用的json内置函数不同,一个是load另一个是loads。代码如下:import urllib.requestimport jsonimport jsonpathurl = "http://www.lagou.com/lbs/getAllCitySea...原创 2018-04-08 09:57:28 · 42555 阅读 · 0 评论 -
Python2和Python3中urllib库中urlencode的使用注意事项
在Python中,我们通常使用urllib中的urlencode方法将字典编码,用于提交数据给url等操作,但是在Python2和Python3中urllib模块中所提供的urlencode的包位置有些不同。对于Python2Python2中提供了urllib和urllib2两个模块。urlencode方法所在位置为:urllib.urlencode(values) # 其中values为所...转载 2018-04-02 11:34:46 · 639 阅读 · 0 评论 -
Python3.x 文件写入出现错误 TypeError: write() argument must be str, not bytes
背景 用Pycharm编辑器Python3.x语言写一个百度贴吧爬虫程序代码如下:import urllib.requestimport urllib.parsedef loadPage(url): headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, lik...原创 2018-04-02 14:38:35 · 3319 阅读 · 0 评论 -
Python工程师学习之旅
Python工程师学习之旅1.Python软件开发基础1.Linux操作系统2.Docker基础3.Python基础语法4.Python字符串解析5.Python正则表达式6.Python文件操作7.Python 模块8.Python异常9.python GUI编程10.Python时间和日历掌握技能1.掌握计算机的构成和工作原理2.会使用Linux常用工具 3.熟练使用Docker的基本命令 4...转载 2018-04-11 13:57:16 · 205 阅读 · 0 评论 -
python中socket用法与原理
一、socket socket的英文原义是“孔”或“插座”。作为BSD UNIX的进程通信机制,取后一种意思。通常也称作"套接字",用于描述IP地址和端口,是一个通信链的句柄,可以用来实现不同虚拟机或不同计算机之间的通信。在Internet上的主机一 般运行了多个服务软件,同时提供几种服务。每种服务都打开一个Socket,并绑定到一个端口上,不同的端口对应于不同的服务。Socket正如其英文原 意...转载 2018-04-11 14:55:23 · 1879 阅读 · 0 评论 -
python之python3.x版本用urllib爬虫出现的module 'urllib' has no attribute 'urlopen'与urllib.error.HTTPError: HTT
研究pycharm编辑器用Python 3.x的urllib爬一个网页代码如下:运行报错如下:在网上查资料可知,Python3.x与Python2.7的差别是urlopen()方法放置模块不同,python3.x的urlopen()方法在urllib.request下面修改代码如下:运行结果如下:修改后还是报错urllib.error.HTTPError: HTTP Error 504: Fidd...原创 2018-03-29 15:26:00 · 2114 阅读 · 0 评论 -
python3网络爬虫一《使用urllib.request发送请求》
使用urllib在Python2版本中,有urllib和urlib2两个库可以用来实现request的发送。而在Python3中,已经不存在urllib2这个库了,统一为urllib。Python3 urllib库官方链接 https://docs.python.org/3/library/urllib.htmlurllib中包括了四个模块,包括urllib.request,urll...转载 2018-03-29 16:24:51 · 210 阅读 · 0 评论