2020年03月_qq_44838702

原创 During handling of the above exception, another exception occurred解决办法

我在执行pip install scrapy时报错，内容如下：During handling of the above exception, another exception occurred这是由于频繁访问网站或请求造成的，可以通过更换国内源的方法来解决此问题。示例如下：pip install scrapy -i http://pypi.douban.com/simple --t...

2020-03-23 15:53:34 75930 15

转载相对路径的表示方法

我们使用“…/”来表示上一级目录，“…/…/”表示上上级的目录，以此类推。下级目录用“/…”表示。同级目录不须用“/”，直接表示为“…”。例1：　　c:/website/web/index.htm　　c:/website/img/photo.jpg　　　　在此例中“index.htm”中联接的“photo.jpg”应该怎样表示呢？　正确写法：使用“…/img/photo.jpg”的相...

2020-03-21 23:47:47 749

原创 Python爬虫之正则表达式——股票数据定向爬虫

1、目标：获取上交所和深交所所有股票的名称和交易信息2、输出：保存到文件中3、技术路线：requests-bs4-re4、网页选取原则：股票信息静态存在于HTML页面中，非js代码生成，没有Robots协议限制5、选取方法：浏览器F12，源代码查看等6、步骤：①从东方财富网获取股票列表②根据股票列表组个到百度股票获取个股信息③将结果存储到文件以下是MOOC的源代码，但是由于时间问...

2020-03-20 12:08:28 1321

原创 Python爬虫之正则表达式——淘宝商品比价定向爬虫

1、目标：获取淘宝搜索页面的信息，提取其中的商品名称和价格2、理解：我们需要解决淘宝的搜索接口、翻页的处理3、技术路线：requests-re4、步骤：①提交商品搜索请求，循环获取页面 ②对于每个页面，提取商品名称和价格信息 ③将信息输出到屏幕上5、对原来代码的改进：增加销量的输出6、编写代码时需注意的问题①淘宝拒绝爬虫的访问，因此我们需要将headers改掉②对翻...

2020-03-20 11:19:22 563

原创 Python爬虫之BeautifulSoup库——爬取大学排名

这个实例解决了输出的中文对齐的问题import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.appa...

2020-03-20 10:58:21 199

原创 Python爬虫之Requests库——IP地址归属地自动查询

import requestsurl="http://m.ip138.com/ip.asp?ip="kv={'user-agent':'Mozilla/5.0'}try: r=requests.get(url+'需要查询的IP地址',headers=kv) r.raise_for_status() r.encoding=r.apparent_encoding ...

2020-03-20 10:47:25 655

原创 Python爬虫之Requests库——网络图片的爬取和存储

import requestsimport osurl="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"root="D://"path=root+url.split('/')[-1]try: if not os.path.exists(root): os.mkdir(...

2020-03-20 10:40:02 457

原创 Python爬虫之Requests库——百度/360搜索关键词提交

1、百度关键词提交若按照MOOC上老师的代码来提交关键词，我们会遇到百度的安全验证我们打开浏览器，搜索Python，结果如下观察网址特点，开始编写代码import requeststry: # kv={'wd':'python'} kv ={'ie':'utf-8','wd': 'Python','p_timestamp':'1583634916'} ua =...

2020-03-20 10:37:03 1213

原创 Python爬虫之Requests库——亚马逊商品页面的爬取

由于这是由爬虫引起的浏览器访问，被亚马逊网站拒绝访问。因此要把user-agent改为标准浏览器Mozilla/5.0import requestsurl="https://www.amazon.cn/gp/product/B01M8L5Z3Y"try: kv={'user-agent':'Mozilla/5.0'} r=requests.get(url,headers=k...

2020-03-20 10:22:46 979

原创 Python爬虫之Requests库——京东商业页面的爬取

import requestsurl="https://item.jd.com/2967929.html"try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[:1000])except: print("爬取失败")...

2020-03-20 10:16:55 370 2

原创原码、反码、补码的计算

原码就是符号位加上真值的绝对值反码的表示方法是：正数的反码是其本身；负数的反码是在其原码的基础上，符号位不变，其余各个位取反补码的表示方法是：正数的补码就是其本身；负数的补码是在其原码的基础上，符号位不变，其余各位取反，最后+1。（即在反码的基础上+1)...

2020-03-08 09:38:43 220

qq_44838702的博客