2017年02月_chaowanghn

02月 01月

原创 scarpy使用遇到的坑，总结

除了抓取第一页外，抓取第2,3等下一页参考：Python + Scrapy 抓取豆瓣电影 top 250 http://www.jianshu.com/p/62e0a588ee0d # 翻页 next_page = response.xpath('//span[@class="next"]/a/@href') if next_page: url = respons

2017-02-11 10:37:48 1919

原创解决Requests中文乱码

都在推荐用Requests库，而不是Urllib，但是读取网页的时候中文会出现乱码。分析： r = requests.get(“http://www.baidu.com“) **r.text返回的是Unicode型的数据。使用r.content返回的是bytes型的数据。也就是说，如果你想取文本，可以通过r.text。如果想取图片，文件，则可以通过r.content。**获取一

2017-02-06 09:37:19 87142 8

原创 lxml解析html时，检验XPath

这两天在研究Scrapy，在遇到用Xpath提出时，需要有Chrome的XPath helper，但老是出现错误。废话少说，还是先把测试网页保存到本地，逐步的测试提取。测试文本text.html<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8"> <title>测试－常规方法</title></head><b

2017-02-05 20:29:52 5177

转载常用正则表达式爬取网页信息及分析HTML标签总结

见链接 https://yq.aliyun.com/articles/26026摘要：这篇文章主要是介绍Python爬取网页信息时，经常使用的正则表达式及方法。它是一篇总结性文章，实用性比较大，主要解决自己遇到的爬虫问题，也希望对你有所帮助~ 当然如果会Selenium基于自动化测试爬虫、BeautifulSoup分析网页DOM节点，这就更方便了，但本文更多的是介绍基于正则的底层爬取分析。

2017-02-05 09:33:03 10272

原创网络爬虫：Requests+lxml

目标：百度百科Python词条相关网页—标题和简介入口页：http://baike.baidu.com/view/21087.htm

2017-02-04 08:32:48 6374 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 scarpy使用遇到的坑，总结

原创 解决Requests中文乱码

原创 lxml解析html时，检验XPath

转载 常用正则表达式爬取网页信息及分析HTML标签总结

原创 网络爬虫：Requests+lxml

空空如也

空空如也

原创解决Requests中文乱码

转载常用正则表达式爬取网页信息及分析HTML标签总结

原创网络爬虫：Requests+lxml