爬虫和数据分析
各种简单爬虫项目
夏友
这个作者很懒,什么都没留下…
展开
-
【爬虫专栏20】拉勾网爬虫(单线程和多线程)
这里写自定义目录标题注意事项功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片A如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入、注意事项#拉勾网有反爬,cooki...原创 2020-03-17 15:25:12 · 642 阅读 · 1 评论 -
【爬虫专栏19】爬取链家网(仅小区IP)
import re import requestsfrom lxml import etreeimport csvimport timeimport jsonfrom fake_useragent import UserAgent#单线程抓取小区id前100页信息def get_xiaoqu(x): head = {'Host': 'bj.lianjia.com', ...原创 2020-05-07 09:37:02 · 439 阅读 · 0 评论 -
【爬虫专栏18】多线程爬笔趣阁遮天
import threadingimport timeimport requestsimport refrom queue import Queue#需要注意这里多线程并没有解决headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHT...原创 2020-05-07 09:34:41 · 316 阅读 · 0 评论 -
【爬虫专栏17】多线程爬双色球
双色球代码部分单线程多线程网址:http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html应该还挺好抓的直接pandas直接贴代码了代码部分单线程import pandas as pdimport csvimport timedef get_one_page(page): url = 'http://kaijiang.zhc...原创 2020-03-17 17:07:21 · 437 阅读 · 0 评论 -
【爬虫专栏16】爬取“去哪儿了”并进行数据分析
爬虫部分import requestsimport jsonimport pandas as pdimport csvimport time#创建CSV文件,并写入表头信息,并设置编码格式为“utf-8-sig”防止中文乱码fp = open(r'E:\vscode_code\爬虫测试\美团\数据.csv','a', newline='',encoding='utf-8-sig')...原创 2020-05-07 09:29:53 · 683 阅读 · 0 评论 -
【爬虫专栏15】爬取元尊贴吧并进行数据分析
爬取元尊贴吧并进行数据分析爬虫部分爬虫进阶部分数据分析1数据分析2爬虫部分import requestsimport refrom requests.exceptions import RequestExceptionimport csvfor i in range(100): url = 'https://tieba.baidu.com/f?kw=%E5%85%83%E...原创 2020-05-07 09:19:41 · 784 阅读 · 0 评论 -
【爬虫专栏14】词云分析
#https://www.cnblogs.com/delav/p/7845539.htmlimport jiebafrom wordcloud import WordCloud, STOPWORDS, ImageColorGeneratorimport matplotlib.pyplot as pltfrom PIL import Image#蒙版的背景图mask = plt.imr...原创 2020-05-06 13:57:18 · 370 阅读 · 0 评论 -
【爬虫专栏12】xpath,正则,json爬取斗鱼直播
xpath和正则import requestsimport refrom requests.exceptions import RequestExceptionimport csvfrom lxml import etreeimport pandas as pd for i in range(1): url = 'https://www.douyu.com/direct...原创 2020-05-06 13:15:12 · 290 阅读 · 0 评论 -
【爬虫专栏11】正则,ajax,json爬马蜂窝
正则import reimport timeimport requestsfrom lxml import etreeimport json#评论内容所在的url,?后面是get请求需要的参数内容comment_url='https://pagelet.mafengwo.cn/note/pagelet/recommendNoteApi?callback=jQuery18100177...原创 2020-05-06 13:11:57 · 179 阅读 · 0 评论 -
【爬虫专栏10】ajax爬微博
import requestsfrom urllib.parse import urlencodefrom pyquery import PyQuery as pq base_url = 'https://m.weibo.cn/api/container/getIndex?' # 这里要换成对应Ajax请求中的链接 headers = { 'Host':'m.weibo.cn'...原创 2020-05-06 13:08:27 · 170 阅读 · 0 评论 -
【爬虫专栏9】ajax爬取豆瓣
先定位到他的json数据页面不同的是他多出了param参数补上就行,和json差别不大#这个和json动态加载时类似的,但是这个可以利用json也可以利用ajax的param参数进行抓取import requestsimport timefrom fake_useragent import UserAgentclass DoubanSpider(object): de...原创 2020-05-06 13:06:24 · 327 阅读 · 0 评论 -
【爬虫专栏8】pandas直接提取表格数据
长江学者数据import pandas as pdimport csvdef get_one_page(num): url = 'http://news.sciencenet.cn/htmlnews/2018/1/399176.shtm' tb = pd.read_html(url, skiprows=[0])[num] # 跳过前两行 return tb # 去...原创 2020-05-06 12:57:18 · 647 阅读 · 0 评论 -
【爬虫专栏7】爬取B站排行
爬取B站排行普通格式保存dict格式保存多个排行普通格式保存#好啊吧,我承认这一天我太无聊了水着玩的import requestsimport refrom requests.exceptions import RequestExceptionimport csv'''#csv的a+性质表示追加,这个和pandas的to_csv的mode='a'是一样的道理csv_file ...原创 2020-05-06 12:55:11 · 396 阅读 · 0 评论 -
【爬虫专栏5】json爬取京东
import requestsimport jsonimport pandas as pdimport csvfor i in range(100): url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=526747373...原创 2020-05-06 12:42:42 · 437 阅读 · 0 评论 -
【爬虫专栏4】爬取图片
利用open和write(文件流)操作进行保存import urllibimport urllib.requestimport re#正则表达式url="https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=inde...原创 2020-05-06 12:37:19 · 366 阅读 · 0 评论 -
【爬虫专栏3】xpath爬取猫眼
from lxml import etreeimport requestsimport timeurl = 'http://maoyan.com/board/1'headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0....原创 2020-05-06 12:34:45 · 290 阅读 · 0 评论 -
【爬虫专栏2】正则爬取猫眼
import requestsimport refrom requests.exceptions import RequestExceptionimport csv '''#csv的a+性质表示追加,这个和pandas的to_csv的mode='a'是一样的道理,但是标题不需要重复,所以是wcsv_file = open(r'E:\vscode_code\爬虫测试\猫眼\maoya...原创 2020-05-06 12:33:05 · 121 阅读 · 0 评论 -
【爬虫专栏1】类型介绍
其实很早就想写一个爬虫专栏了,这次就我以前写的一点点爬虫做个整理,我比较喜欢用lxml,json提取和正则表达式惊醒爬虫,Scrapy呢不会用,bs4呢不怎么喜欢,关于反爬例如CSS和字体库略有了解但不深入,对于ajax和动态爬取会那么一点,selenium等库的操作不怎么会。。。MongoDB和mysql的基本操作会一丢丢,也会写出来,多线程也有涉及。关于一些爬虫工具也会贴出来。数据分析也会有有...原创 2020-05-06 09:51:34 · 363 阅读 · 0 评论