自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 资源 (3)
  • 收藏
  • 关注

原创 Python爬虫将数据存为csv格式时乱码的解决方法

1.用记事本的方式打开此csv文件2.点击另存为,编码设置为UTF-8,文件名后面加.csv如我之前爬取的网易云音乐的信息存进Exel然后就可以看到结果了

2019-01-31 23:59:31 9387 6

原创 12天Python爬虫学习的总结和思考

爬取网页的过程1.发送请求和获取相应2.对获取的response进行想要的信息的提取3.对信息进行存储(1)发送请求和相应基本的是requests库的使用共有参数:headersheaders以字典形式添加,有的网页需要多一点的头部信息才可以获得响应。可以人为的删除一些没必要的头部信息。nb一点的用法,生成随机的头部信息用fake_useragent这个库,要pip instal...

2019-01-31 00:39:40 1289

原创 网易云音乐热歌榜爬取(用Jsonpath解析Json数据 + 面向对象写法)

要注意的一点是Jsonpath是从0开始数的,Xpath是从1开始数的一般写法(函数式)import requestsfrom requests.exceptions import RequestExceptionimport reimport jsonimport jsonpathimport csvimport timeheaders = { "User-Agent...

2019-01-30 14:51:06 3380

原创 爬取三国演义小说全文进行词频统计并生成词云

from bs4 import BeautifulSoupimport requestsfrom multiprocessing import Poolimport timeimport jiebafrom PIL import Imagefrom wordcloud import WordCloudheaders = { 'User-Agent': 'Mozilla/5....

2019-01-29 15:44:16 2488

原创 英雄联盟峡谷之巅前100爬取(动态网页+json格式解析)

目的是爬取英雄联盟官网的峡谷之巅前100的信息,经观察发现,每一页只有25个玩家的信息。先看网页源代码看到前面,结构清晰,很好抓取。到了中间部分发现只有前25个,后面的数据貌似被隐藏了。在此处可见,在翻页时加载了json文件于是就去抓包找json文件。。当翻页时,网站的url并没有改变,翻看前4页,通过抓包发现一共加载了3个json文件通过对比network下的3个json文件...

2019-01-29 00:31:07 1750

原创 豆瓣音乐Top250爬取并写入数据库

先在谷歌浏览器获取cookie和post,让请求头nb一点from requests.exceptions import RequestExceptionfrom lxml import etreeimport requestsimport pymongoimport timeimport re#写入mongoDB数据库client = pymongo.MongoClient('...

2019-01-25 16:19:40 1075

原创 简单练手:B站前100爬取

import requestsimport xlwtimport reheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}de...

2019-01-24 21:05:53 414

原创 爬取妹子图片

爬取图片有一个要注意的点是要对jpg那条链接在解析一次然后.write写入文件。import requestsimport re'''深入的源代码才能发现契机~'''headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' 'AppleWebKit/537.36 (KHTML, li...

2019-01-23 15:20:04 247

原创 简单的练手实例:爬取酷我音乐排行榜前200并进Exel

这个实例用正则表达式最为简单import reimport requestsimport xlwtkey_value = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Sa...

2019-01-22 19:37:39 1011 1

原创 将二维列表写进Exel套路

import xlwtdef getExel(mylist): #表头的标题 header = ['','',''] book = xlwt.Workbook(encoding='utf-8') sheet = book.add_sheet('Sheet1') for k in range(len(header)): sheet.w...

2019-01-22 19:28:04 127 1

原创 实例4:爬取糗事百科文字区的信息

路线: requests + BeautifulSoup + re关键之处:具体估计是为了让爬取者麻烦一点,他在评论内容里加了’< br >'标签但是,这是阻止不了我们的嘻嘻。因为内容里加了’< br >'所以内容部分我们用BeautifulSoup的get_text()方法,把所有子节点的非属性字符串变为一个列表,让后用join方法把他们合并成一个完整的段子,这一...

2019-01-20 22:33:53 169

原创 实例3:爬取斗破苍穹小说全文

呜呼~回到家的感觉真的不一样,下了广州站空气就清新了一番。。回到家就是熟悉而又陌生的感觉。这次的实例是爬取斗破苍穹小说网的斗破苍穹小说全文。首先要找的是原网站,不是百度到的最前面的。因为正版的蜘蛛协议也写得很清楚了。。而且里面的文本内容被藏起来了。无能为力,只能爬别的网啦哈哈。思路 通常思路1. requests + Beautiful 2. requests + re这里我们比较一下这两...

2019-01-20 16:55:11 961

原创 实例2:酷狗Top500信息爬取

前端的知识对爬虫真的很重要哇,比如一个CSS的div、strong标签我以为是子标签取搜索,结果就懵逼了。原来这些属性的标签是不算的。故,需要小补一哈前端知识开爬虫会好一点。进入正题,这个和我之前的那个实例爬取中国大学排名有明显的不同,虽然都是html代码解析,还没出现JavaScript,不用正则表达式,但还是有值得探索的地方。对比:之前的样例仅仅是所有信息都在同一个名字的标签里面,只要一次下...

2019-01-19 00:09:52 621

原创 慕课实例Python爬虫中国大学排名爬虫总结与思考

from bs4 import BeautifulSoupimport bs4import requestsdef get_html(url): '''获取网页的html源代码的文本字符串''' try: kv = {'user-agent': 'Mozzila/5.0'} # 设立头,提高爬取成功率 r = requests.get(ur...

2019-01-15 12:20:16 1905

spark-2.4.4-bin-hadoop2.6.tgz

spark-2.4.4-bin-hadoop2.6.tgz

2020-02-02

GetIPv6.py

爬取国外某网站提供的大量ipv6地址,保存为csv。

2019-06-22

zzulioj 1296 a/b+c/d

1296: a/b + c/d 时间限制: 1 Sec 内存限制: 128 MB 提交: 213 解决: 135 [提交] [状态] [讨论版] [命题人:外部导入] 题目描述 给你2个分数,求他们的和,并要求和为最简形式。 输入 输入首先包含一个正整数T(T<=1000),表示有T组测试数据,然后是T行数据,每行包含四个正整数a,b,c,d 输出 对于每组测试数据,输出两个整数e和f,表示a/b + c/d的最简化结果是e/f,每组输出占一行。 样例输入 2 1 2 1 3 4 3 2 3 样例输出 5 6 2 1 来源/分类

2018-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除