python
都说没想好
这个作者很懒,什么都没留下…
展开
-
python获取网页上所有链接
import urllib2 #获取源码的函数,urllib3更换 urllib.request.urlopen(url).read() return urllib2.urlopen(url).read() def get_next_target(page): #每次处理page中寻找链接的函数 start_link = page.find('<a href=原创 2016-11-10 20:41:10 · 5379 阅读 · 2 评论 -
python爬链接后建立【关键词+网址】列表
def get_page(url): #获取源码 try: import urllib return urllib.urlopen(url).read() except: return ""def get_next_target(page): #寻找剩下的页面出现的网址 start_link = page.find原创 2016-11-16 19:23:21 · 871 阅读 · 0 评论 -
python爬网页上所有的链接(爬到最深)
相关课程链接:Crawl Web今天做的这个是在上个实验的基础上加了一个跳转挖掘链接,再从新链接里面继续向下挖掘,这样层层递进挖到深处~~还没有学到get_page的真正写法,如果用urllib2.urlopen()会出现HTTP error的问题,这个在第四章才学习。这里直接贴上网站的源码,主要验证深挖的函数。def get_page(url): #尚未处理好,功原创 2016-11-14 18:24:42 · 6987 阅读 · 1 评论 -
给爬到的网址链接加入“朋友值”
def compute_ranks(graph): print graph d = 0.8 # damping factor numloops = 10 ranks = {} npages = len(graph) for page in graph: ranks[page] = 1.0 / npages for i i原创 2016-11-18 16:34:48 · 304 阅读 · 0 评论 -
urllib2下载网页的三种方法
第一种:直接用urllib2.urlopen方法import urllib2url="http://www.baidu.com"print ('NO1')res1=urllib2.urlopen(url)print res1.getcode() #获取成功将返回200print len(res1.read())第二种:用request对象,增加http header原创 2016-11-20 16:57:37 · 1983 阅读 · 0 评论 -
网页解析器beautifulsoup安装使用
安装方法:举例说明:# -*- coding:utf-8 -*-from bs4 import BeautifulSoupimport urllib2import reurl="http://www.baidu.com"res1=urllib2.urlopen(url)print res1.getcode()htmldoc=res1.read() #得到百度原创 2016-11-20 18:34:55 · 469 阅读 · 0 评论 -
Mac安装jupyter(原ipython)方法
用了Mac之后非常不习惯,很多东西都要查才能完成=-=之前python用的sublime和ide,今天看教程安利了一个jupyter记录下用Mac安装jupyter的过程:1.像其他安装Mac自带了python2.7 和 easy-install习惯用pip所以先装了个pip:终端输入:sudo easy_install pip2.可以直接用pip来安装其他库了原创 2017-03-02 11:41:33 · 8584 阅读 · 0 评论