- 博客(5)
- 收藏
- 关注
原创 scarpy使用遇到的坑,总结
除了抓取第一页外,抓取第2,3等下一页参考:Python + Scrapy 抓取豆瓣电影 top 250 http://www.jianshu.com/p/62e0a588ee0d # 翻页 next_page = response.xpath('//span[@class="next"]/a/@href') if next_page: url = respons
2017-02-11 10:37:48 1919
原创 解决Requests中文乱码
都在推荐用Requests库,而不是Urllib,但是读取网页的时候中文会出现乱码。分析: r = requests.get(“http://www.baidu.com“) **r.text返回的是Unicode型的数据。 使用r.content返回的是bytes型的数据。 也就是说,如果你想取文本,可以通过r.text。 如果想取图片,文件,则可以通过r.content。**获取一
2017-02-06 09:37:19 87142 8
原创 lxml解析html时,检验XPath
这两天在研究Scrapy,在遇到用Xpath提出时,需要有Chrome的XPath helper,但老是出现错误。废话少说,还是先把测试网页保存到本地,逐步的测试提取。测试文本text.html<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>测试-常规方法</title></head><b
2017-02-05 20:29:52 5177
转载 常用正则表达式爬取网页信息及分析HTML标签总结
见链接 https://yq.aliyun.com/articles/26026摘要: 这篇文章主要是介绍Python爬取网页信息时,经常使用的正则表达式及方法。它是一篇总结性文章,实用性比较大,主要解决自己遇到的爬虫问题,也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬虫、BeautifulSoup分析网页DOM节点,这就更方便了,但本文更多的是介绍基于正则的底层爬取分析。
2017-02-05 09:33:03 10272
原创 网络爬虫:Requests+lxml
目标:百度百科Python词条相关网页—标题和简介 入口页:http://baike.baidu.com/view/21087.htm
2017-02-04 08:32:48 6374 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人