爬虫
被月亮晒黑_
这个作者很懒,什么都没留下…
展开
-
【爬虫】1.get与post请求
1.学习get与post请求任务说明:尝试使用requests和urllib用get方法向百度https://www.baidu.com/发出一个请求,并将其返回结果输出。1.1get与 post区别表单提交中get和post方式的区别有5点1.get是从服务器上获取数据,post是向服务器传送数据。2.get是把参数数据队列加到提交表单的ACTION属性所指的URL中,值...原创 2019-03-01 14:15:32 · 1733 阅读 · 0 评论 -
【爬虫】5.学习selenium
1.selenium安装直接pip install selenium2.selenium学习2.1安装googledriver然后把这个exe文件放在python目录里和google浏览器目录里。试验:from selenium import webdriverbrowser = webdriver.Chrome()browser.get('http...原创 2019-03-05 18:35:57 · 184 阅读 · 0 评论 -
【爬虫】2.正则表达式
目录1.正则表达式2.Python正则表达式3.xpath爬取豆瓣top250电影3.1查看xpanth信息3.2xpath获取电影其他信息3.3 信息切片3.3.1 replace()3.3.2 split()3.4信息汇总3.5余下页数信息汇总3.5改进4.正则表达式爬取豆瓣top2504.1 获取网站响应内容4.2 从响应内容里正则化提...原创 2019-03-02 22:03:22 · 336 阅读 · 0 评论 -
【爬虫】6.学习IP相关知识
1.IP有关(1)什么是IPIP地址是指互联网协议地址(英语:Internet Protocol Address,又译为网际协议地址),用来与其他电脑联络是地址。(2)为什么IP被封IP被封常被认为是自我保护,组织外部攻击,也可能是virus,malware or spam导致的。(3)如何应对IP被封问题可以参考:https://www.cnblogs.com/IT-Sc...原创 2019-03-06 14:55:20 · 149 阅读 · 0 评论 -
【爬虫】3.学习beautifulsoup
1.beautifulsoupBeautifulSoup是一个可以将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是python对象,所有对象可以归纳为4种:Tag、NavigableString、BeautifuSoup和Comment。1.Tag 就是html中的一个个标签tag有两个重要的属性,name和attrs2.NavigableString 就是指内容#打...原创 2019-03-04 20:22:59 · 172 阅读 · 0 评论 -
【爬虫】4.学习xpath
1.xpathXPath 是一门在 XML 文档中查找信息的语言。教程如下:http://www.runoob.com/xpath/xpath-intro.html2.xpath爬取丁香园xpath有关套路我在我的爬虫第2篇博客讲得比较清楚。网站如下:http://www.dxy.cn/bbs/thread/626626#626626(1)查看评论的xpath:/...原创 2019-03-04 21:05:27 · 173 阅读 · 0 评论