python
Lin_drink_caffe
这个作者很懒,什么都没留下…
展开
-
Python爬虫之简书
这篇爬虫和糗事百科是一样的方法,要注意的有两点: 1,正则表达式要更具网页的实时信息进行查看,打开F12查看源代码即可,并不难。 2,当时在检查的时候直接print content出现了符号码,改成for循环之后得出了正确的结果。# -*- coding:utf-8 -*-import urllibimport urllib2import re# 简书爬虫类class JianShu:原创 2017-03-18 16:29:37 · 968 阅读 · 0 评论 -
python 图像问题
图像打开 要用Python进行图像处理,首先要下载对于的包。$ cd anaconda2/$ conda Pillowpython 程序from PIL import Imageimport matplotlib.pyplot as pltimg=Image.open('/home/cat.jpg')plt.figure("cat")plt.imshow(img)plt.show()关掉原创 2017-03-16 10:02:37 · 402 阅读 · 0 评论 -
Python爬取一个基本的网页
1. 简单网页python扒网页主要根具URL来获取网页的内容。在python库中主要是urllib2起作用。In [5]:import urllib2In[6]:response=urllib2.urlopen("http://vip.stock.finance.sina.com.cn/corp/go.php/vFD_FinanceSummary/stockid/600000.phtml")原创 2017-03-11 18:54:00 · 867 阅读 · 0 评论 -
Python 爬虫基础Headers
Headers有些网站不允许应用程序直接访问,一旦发现是程序在访问,则站点不会响应。为了模拟浏览器的工作方式,需要设置Headers。打开浏览器,按F12,打开网络监听。 User-Agent:Mozilla/5.0 (X11; Linux x86_64)其中,user_agent即为请求身份,如果没有写入请求身份,服务器可能不会响应,因此在headers中设置user_agent。import翻译 2017-03-16 17:04:36 · 838 阅读 · 0 评论 -
Python 爬虫基础 异常处理
1.URLError出现该错误的原因有:网络无连接,即本机无法上网连接不到特定的服务器服务器不存在 用try-except语句来包围捕获异常。import urllib2request = urllib2.Request('http://www.xxxxx.com')try: urllib2.urlopen(request)except urllib2.URLError, e:翻译 2017-03-16 19:21:47 · 453 阅读 · 0 评论 -
Python 爬虫 糗事百科 (改)
出问题主要是正则表达式的修改# -*- coding:utf-8 -*-import urllibimport urllib2import reimport threadimport time#糗事百科爬虫类class QSBK: #初始化方法,定义一些变量 def __init__(self): self.pageIndex=1 self.user_age原创 2017-03-16 19:42:11 · 245 阅读 · 0 评论