python
沐雨金鳞
大行不顾细谨
展开
-
python-快速使用urllib爬取网页(1)
要使用Urllib爬取网页,首先需要导入用到的对应模块 urllib是python自带的模块,不需要下载import urllib.request导入了模块后,我们采用以下方法打开并爬取一个网页file = urllib.request.urlopen("http://www.baidu.com")此时,我们已经将爬取到的网页赋给了变量file 爬取完后,我们现在可以使用file.read()读原创 2017-12-23 21:08:59 · 5415 阅读 · 0 评论 -
python3中操纵数据库
1、导入pymysql模块pip install pymysql3如果执行不成功,说明是网速问题,从网上找一个镜像下载即可。2、打开python shell:(下面两种方法均可)(1)cmd中直接输入python。(2)在开始菜单,选择 python IDE。3、执行以下命令即可链接数据库并操纵数据库import pymysql#连接conn = pymysql.connect...原创 2018-12-30 20:27:06 · 308 阅读 · 0 评论 -
python爬虫(gzip新浪微博为例)
# coding=utf-8import urllib.requestimport gzipurl = 'http://news.sina.com.cn/'def getUrlContent(url): # 返回页面内容 doc = urllib.request.urlopen(url).read() # 解码 try: html = gzip.原创 2017-12-30 11:30:18 · 1546 阅读 · 0 评论 -
python-爬虫(今日新闻头条练手)
# coding=utf-8from tkinter import *import urllib.requestroot = Tk()root.title = "今日头条"root.geometry("450x560")can = Canvas(root,width=400,height=560,bg="orange")can.pack()url = "http://www.mnw.cn/n原创 2017-12-28 21:34:33 · 1107 阅读 · 0 评论 -
python_网络编程_socket(服务器+客户端)
服务端代码# coding=utf-8#创建套接字 绑定到端口 监听 处理 返回import socketsk = socket.socket(socket.AF_INET,socket.SOCK_STREAM) #IPv4 TCPhost = "192.168.47.1"port = 5000sk.bind((host,port))sk.listen(1)while 1: clnt,原创 2017-12-27 23:29:04 · 667 阅读 · 0 评论 -
python爬取百思不得姐视频代码
# coding=utf-8import urllib.requestimport redef getVideo(page): url = "http://www.budejie.com/video/%s" %page #爬取网页的url req = urllib.request.Request(url) req.add_header("User-Agent","Mozi原创 2017-12-24 19:27:52 · 399 阅读 · 0 评论 -
python-快速使用urllib爬取网页(小结)
1、Urllib是Python提供的一个用于操作URL的库 Python2.X中(Urllib库+Urllib2库) Python3.X中(Urllib库)2、基于URL标准对字符的严密要求,我们有时要进行编码解码处理3、有时爬取出现403错误时,有可能是所爬取的网站做了反爬虫处理4、由于urlopen()不支持一些HTTP高级功能,所以,我们如果要修改报头,那么我们使用urllib.reque原创 2017-12-24 10:46:10 · 1076 阅读 · 0 评论 -
python-快速使用urllib爬取网页(8-URLError)
程序的执行难免遇到异常,发生异常不要紧,关键是要合理处理异常在Python爬虫中,经常要处理与URL相关的异常 使用URL异常处理-URLError类进行处理 导入urllib.error模块本节我们主要介绍两个类:URLError + HTTPErrorimport urllib.requestimport urllib.errortry: urllib.request.urlope原创 2017-12-24 10:40:25 · 374 阅读 · 0 评论 -
python-快速使用urllib爬取网页(7-DebugLog)
有时我们希望在程序运行的过程中,边运行边打印调试日志信息,此时需要开启DeugLog如何开启DebugLog那? 1、分别使用urllib.request.HTTPHandler()和urllib.request.HTTPSHandler()将debuglevel设置为1 2、使用urllib.request.build_opener()创建自定义的opener对象,并将1中值作为参数 3、用原创 2017-12-24 10:27:27 · 455 阅读 · 0 评论 -
python-快速使用urllib爬取网页(5-POST)
采用Post的方式后续会详细讲解,这里只说明过程1、构造URL2、构造表单数据,并进行编码处理3、构建Request对象4、使用add_header()添加头信息,模拟浏览器爬取5、打开对应的Request对象6、后续处理原创 2017-12-24 09:13:15 · 382 阅读 · 0 评论 -
python-快速使用urllib爬取网页(4-GET)
客户端–消息传递(HTTP协议)–服务器端 HTTP协议请求分为六种类型: a、GET请求:GET请求通过URL网址传递信息,可以直接在URL中写上要传递的信息,也可以由表单进行传递,如果使用表单进行传递,表单中的信息会自动转为URL地址中的数据,通过URL地址传递。 b、POST请求:可以向服务器提交数据,比较主流和安全。比如在登录时,经常使用POST请求发送数据。 c、PUT请求:请求服原创 2017-12-24 09:03:59 · 444 阅读 · 3 评论 -
python-快速使用urllib爬取网页(3-超时异常)
爬虫怕的就是超时,而出现最多的就是超时,这种问题如何解决那?# coding=utf-8import urllib.requestfor i in range(1,100): try: file = urllib.request.urlopen("http://yum.iqianyue.com",timeout=1) data = file.read()原创 2017-12-24 08:26:35 · 3435 阅读 · 0 评论 -
python-快速使用urllib爬取网页(2-Headers属性)
有时候,我们无法爬取一些网页,出现403错误,因为这些网页为了防止别人恶意采集进行了一些反爬虫设置可是我们想爬取这些信息,怎么办? 设置一些Headers属性,模拟成浏览器去访问这些网站,就解决了这个问题了首先我们要获得所要爬取网页的User-Agent信息 在所要爬取的网页的地址栏里输入 about:version 我们就找到了用户代理的字符串信息 我们将其复制出来 形式如下所示:Mo原创 2017-12-23 22:06:46 · 2134 阅读 · 0 评论 -
python将微信二维码转化为炫酷二维码
第一步:将你的微信二维码保存下来。第二步:打开草料二维码,在更多工具里找到上传二维码。第三步:将你的二维码上传,会返回给你一个URL链接,复制下来。第四步:WIN+R打开命令提示符,输入pip install myqr第五步:输入:myqr 草料二维码返回给你的URL链接 -p 你的微信二维码在电脑上的地址 -c 生成的图片的保存地址完成!其他更多生成方式见...原创 2019-08-30 14:07:13 · 1236 阅读 · 0 评论