爬虫
被月亮晒黑_
这个作者很懒,什么都没留下…
展开
-
【爬虫】1.get与post请求
1.学习get与post请求 任务说明: 尝试使用requests和urllib用get方法向百度https://www.baidu.com/发出一个请求,并将其返回结果输出。 1.1get与 post区别 表单提交中get和post方式的区别有5点 1.get是从服务器上获取数据,post是向服务器传送数据。 2.get是把参数数据队列加到提交表单的ACTION属性所指的URL中,值...原创 2019-03-01 14:15:32 · 1778 阅读 · 0 评论 -
【爬虫】5.学习selenium
1.selenium安装 直接pip install selenium 2.selenium学习 2.1安装googledriver 然后把这个exe文件放在python目录里和google浏览器目录里。 试验: from selenium import webdriver browser = webdriver.Chrome() browser.get('http...原创 2019-03-05 18:35:57 · 201 阅读 · 0 评论 -
【爬虫】2.正则表达式
目录 1.正则表达式 2.Python正则表达式 3.xpath爬取豆瓣top250电影 3.1查看xpanth信息 3.2xpath获取电影其他信息 3.3 信息切片 3.3.1 replace() 3.3.2 split() 3.4信息汇总 3.5余下页数信息汇总 3.5改进 4.正则表达式爬取豆瓣top250 4.1 获取网站响应内容 4.2 从响应内容里正则化提...原创 2019-03-02 22:03:22 · 357 阅读 · 0 评论 -
【爬虫】6.学习IP相关知识
1.IP有关 (1)什么是IP IP地址是指互联网协议地址(英语:Internet Protocol Address,又译为网际协议地址),用来与其他电脑联络是地址。 (2)为什么IP被封 IP被封常被认为是自我保护,组织外部攻击,也可能是virus,malware or spam导致的。 (3)如何应对IP被封问题 可以参考:https://www.cnblogs.com/IT-Sc...原创 2019-03-06 14:55:20 · 164 阅读 · 0 评论 -
【爬虫】3.学习beautifulsoup
1.beautifulsoup BeautifulSoup是一个可以将复杂的HTML文档转换成一个复杂的树形结构,每个节点都是python对象,所有对象可以归纳为4种:Tag、NavigableString、BeautifuSoup和Comment。 1.Tag 就是html中的一个个标签 tag有两个重要的属性,name和attrs 2.NavigableString 就是指内容 #打...原创 2019-03-04 20:22:59 · 197 阅读 · 0 评论 -
【爬虫】4.学习xpath
1.xpath XPath 是一门在 XML 文档中查找信息的语言。 教程如下:http://www.runoob.com/xpath/xpath-intro.html 2.xpath爬取丁香园 xpath有关套路我在我的爬虫第2篇博客讲得比较清楚。 网站如下:http://www.dxy.cn/bbs/thread/626626#626626 (1)查看评论的xpath: /...原创 2019-03-04 21:05:27 · 193 阅读 · 0 评论