![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
airuoflora
愿你所愿,终能实现。
展开
-
python爬虫——爬取豆瓣电影top250信息并加载到MongoDB数据库中
最近在学习关于爬虫方面的知识,因为刚开始接触,还是萌新,所以有什么错误的地方,欢迎大家指出 from multiprocessing import Pool from urllib.request import Request, urlopen import re, pymongo index = 0 class DouBanSpider(object): client = pymon...原创 2019-01-13 18:47:37 · 1606 阅读 · 2 评论 -
爬取奇书网各类小说信息并保存到excel中
一开始用的保存函数是将原来的文件内容替换掉,所以换了一种方法就可以追加数据内容了 两种方法的对比 1.追加数据的函数 old_file = xlrd.open_workbook('qishu.xls') new_file = copy(old_file) new_sheet = new_file.get_sheet(0) row = k # ...原创 2019-01-14 10:40:25 · 791 阅读 · 0 评论 -
爬取糗事百科
下面的例子是爬取糗事百科信息。 注意:爬取任何一个网站,首先要确定的就是这个网站是静态网站还是动态网站。其次看看这个GET请求是否携带了特殊的参数。最后需要留意请求头Cookie信息。 import sqlite3, re from urllib.request import Request, urlopen from fake_useragent import UserAgent clas...原创 2019-01-14 17:54:52 · 596 阅读 · 0 评论 -
利用进程池多进程爬取人人车信息
下面例子是爬取人人车车辆信息。 多线程/多进程:提高代码的执行效率,放在爬虫中就是提高爬取效率。因为可以使用多个进程同时对多个页面发起请求。 from urllib.request import urlopen from urllib.error import HTTPError # 进程池:比较方便,使用简单。 from multiprocessing import Pool impor...原创 2019-01-14 18:04:51 · 290 阅读 · 0 评论 -
Django小项目——简单的天气查询网站
1.首先应该建立一个Django项目,注意要选择Existing interpreter 2、创建app,--python manage.py startapp . 3、settings.py文件需要配置一下 STATICFILES_DIRS = [os.path.join(BASE_DIR, 'static')] 使可以找到文件包 4、views中的代码 fr...原创 2019-01-15 23:50:49 · 6897 阅读 · 7 评论