- 博客(11)
- 问答 (1)
- 收藏
- 关注
原创 During handling of the above exception, another exception occurred解决办法
我在执行pip install scrapy时报错,内容如下:During handling of the above exception, another exception occurred这是由于频繁访问网站或请求造成的,可以通过更换国内源的方法来解决此问题。示例如下:pip install scrapy -i http://pypi.douban.com/simple --t...
2020-03-23 15:53:34 75930 15
转载 相对路径的表示方法
我们使用“…/”来表示上一级目录,“…/…/”表示上上级的目录,以此类推。下级目录用“/…”表示。同级目录不须用“/”,直接表示为“…”。例1: c:/website/web/index.htm c:/website/img/photo.jpg 在此例中“index.htm”中联接的“photo.jpg”应该怎样表示呢? 正确写法:使用“…/img/photo.jpg”的相...
2020-03-21 23:47:47 749
原创 Python爬虫之正则表达式——股票数据定向爬虫
1、目标:获取上交所和深交所所有股票的名称和交易信息2、输出:保存到文件中3、技术路线:requests-bs4-re4、网页选取原则:股票信息静态存在于HTML页面中,非js代码生成,没有Robots协议限制5、选取方法:浏览器F12,源代码查看等6、步骤:①从东方财富网获取股票列表②根据股票列表组个到百度股票获取个股信息③将结果存储到文件以下是MOOC的源代码,但是由于时间问...
2020-03-20 12:08:28 1321
原创 Python爬虫之正则表达式——淘宝商品比价定向爬虫
1、目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格2、理解:我们需要解决淘宝的搜索接口、翻页的处理3、技术路线:requests-re4、步骤:①提交商品搜索请求,循环获取页面 ②对于每个页面,提取商品名称和价格信息 ③将信息输出到屏幕上5、对原来代码的改进:增加销量的输出6、编写代码时需注意的问题①淘宝拒绝爬虫的访问,因此我们需要将headers改掉②对翻...
2020-03-20 11:19:22 563
原创 Python爬虫之BeautifulSoup库——爬取大学排名
这个实例解决了输出的中文对齐的问题import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.appa...
2020-03-20 10:58:21 199
原创 Python爬虫之Requests库——IP地址归属地自动查询
import requestsurl="http://m.ip138.com/ip.asp?ip="kv={'user-agent':'Mozilla/5.0'}try: r=requests.get(url+'需要查询的IP地址',headers=kv) r.raise_for_status() r.encoding=r.apparent_encoding ...
2020-03-20 10:47:25 655
原创 Python爬虫之Requests库——网络图片的爬取和存储
import requestsimport osurl="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"root="D://"path=root+url.split('/')[-1]try: if not os.path.exists(root): os.mkdir(...
2020-03-20 10:40:02 457
原创 Python爬虫之Requests库——百度/360搜索关键词提交
1、百度关键词提交若按照MOOC上老师的代码来提交关键词,我们会遇到百度的安全验证我们打开浏览器,搜索Python,结果如下观察网址特点,开始编写代码import requeststry: # kv={'wd':'python'} kv ={'ie':'utf-8','wd': 'Python','p_timestamp':'1583634916'} ua =...
2020-03-20 10:37:03 1213
原创 Python爬虫之Requests库——亚马逊商品页面的爬取
由于这是由爬虫引起的浏览器访问,被亚马逊网站拒绝访问。因此要把user-agent改为标准浏览器Mozilla/5.0import requestsurl="https://www.amazon.cn/gp/product/B01M8L5Z3Y"try: kv={'user-agent':'Mozilla/5.0'} r=requests.get(url,headers=k...
2020-03-20 10:22:46 979
原创 Python爬虫之Requests库——京东商业页面的爬取
import requestsurl="https://item.jd.com/2967929.html"try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[:1000])except: print("爬取失败")...
2020-03-20 10:16:55 370 2
原创 原码、反码、补码的计算
原码就是符号位加上真值的绝对值反码的表示方法是:正数的反码是其本身;负数的反码是在其原码的基础上,符号位不变,其余各个位取反补码的表示方法是:正数的补码就是其本身;负数的补码是在其原码的基础上,符号位不变,其余各位取反,最后+1。(即在反码的基础上+1)...
2020-03-08 09:38:43 220
空空如也
python在post请求下爬取数据,为什么返回的只有一个空列表?
2020-05-08
TA创建的收藏夹 TA关注的收藏夹
TA关注的人