python爬虫
文章平均质量分 79
为祖国健康工作60年
醉后不知天在水,满船清梦压星河。
展开
-
BeautifulSoup库的安装及测试
BeautifulSoup库解释BeautifulSoup模块是用来从HTML/XML等文件提取所需数据的Python库.,专为快速周转项目而设计,如屏幕抓取。三个功能使其功能强大:(1)Beautiful Soup提供了一些简单的方法和Pythonic习语,用于导航,搜索和修改解析树:用于剖析文档和提取所需内容的工具包。编写应用程序不需要太多代码(2)Beautiful Soup会自动...原创 2019-04-03 21:29:41 · 2079 阅读 · 0 评论 -
python爬虫,requests库的安装及七个方法
1、requests库的安装:windows平台以管理员身份运行cmd,执行pip install requests测试安装结果:import requests>>> r=requests.get("http://www.baidu.com")>>> r.status_code200>>> r.encoding="utf...原创 2019-03-31 13:27:51 · 2306 阅读 · 0 评论 -
python爬虫response对象及通用代码框架
**- 1、Response对象的属性**属性说明r.status_codeHTTp请求的返回状态,200表示连接成功,404表示失败r.textHTTp响应内容的字符串形式,即url对应的页面内容r.encoding从HTTP header中猜测的响应内容编码方式r.apparent_encoding从内容中分析出的响应内容编码方式(备选编码方...原创 2019-03-31 13:56:03 · 703 阅读 · 0 评论 -
python爬虫爬取京东、亚马逊商品页面信息
利用爬虫获取京东页面上的信息>>> import requests>>> r=requests.get("https://item.jd.com/7629588.html")>>> r.status_code200>>> r.encoding'gbk'>>> r.text[:1000]利用...原创 2019-04-01 22:48:05 · 1658 阅读 · 2 评论 -
python爬虫爬取百度、360搜索引擎信息
利用爬虫获取360搜索上的信息>>> import requests>>> keyword='python'>>> try: kv={'q':keyword} r=requests.get("http://www.so.com/s",params=kv) print(r.request.url) r.raise_for_statu...原创 2019-04-01 22:49:42 · 2527 阅读 · 0 评论 -
python爬虫爬取网页图片并存储
用 爬虫爬取网页图片并存储>>> import requests>>> import os>>> url="http://5b0988e595225.cdn.sohucs.com/images/20180903/2de4877fe41e4dfe87a753c54c357dd9.jpeg"#图片链接>>> root="D...原创 2019-04-02 09:31:21 · 2113 阅读 · 1 评论 -
python爬虫查询IP地址的归属地
1、首先是借用ip地址查询网站www.ip138.com网站我们在www.ip138.com网站中输入一个IP地址,就会弹出来相关的IP地址归属地信息2、书写我们要访问的链接>>> import requests>>> url="http://m.ip138.com/ip.asp?ip="3、用get 方法获取想要的信息、并查看信息>>...原创 2019-04-02 10:19:38 · 2331 阅读 · 2 评论