![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫/网页解析
爬虫/网页解析
morein2008
这个作者很懒,什么都没留下…
展开
-
BeautifulSoup的选择器
用BeautifulSoup查找指定标签(元素)的时候,有几种方法:soup=BeautifulSoup(html)1.soup.find_all(tagName),返回一个指定Tag元素的列表2.soup.select(selector),返回一个指定Tag元素的列表,是非常好用的方法,它支持大部分css选择器(可在链接页面内查找"CSS选择器"相关章节),如类选择器,id选择器,子代选...原创 2016-09-28 20:24:00 · 57 阅读 · 0 评论 -
Python爬虫经验
有时候读取同一个url,服务器可能会返回不同的response,并不是爬虫程序代码的问题,而是服务器的问题,初次试验request时,最好 把response文本保存在一个txt文件当中,以便后续的比对。得到response文本之后就可以利用正则表达式或通过查找字符串来获取信息了。只做get请求时,requests.get(url)和urllib.open(url).read()效果是相同的。...原创 2016-03-07 19:39:00 · 35 阅读 · 0 评论 -
urllib2加入header及解决中文乱码问题
def main(): url = "http://www.douban.com" #伪装桌面浏览器 headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} #伪装移动浏览器...原创 2016-03-25 10:32:00 · 54 阅读 · 0 评论 -
BeautifulSoup获取指定class样式的div
如何获取指定的标签的内容是解析网页爬取数据的必要手段,比如想获取<div class='xxx'> ...<div>这样的div标签,通常有三种办法,1)用字符串查找方法,然后切分字符串(或切片操作),如str.index(patternStr)或str.find(patternStr),这种方法快,但步骤多,因为要去头去尾。2)用正则表达式,比如'<div c...原创 2016-03-23 16:23:00 · 308 阅读 · 0 评论 -
正则表达式的括号与贪婪匹配
今天遇到一个正则表达式 regex = '<div class="div_result[\s\S]+?>([\s\S]+)</div>'我原以为将其与网页内容进行匹配之后会获得形如<div class="div_result...</div>这样的完整字符串,但结果只获取了<div></div>之间的内容,十分不解,上网查了之后才...原创 2016-03-21 21:16:00 · 128 阅读 · 0 评论