2019年01月_Last_xuan1

12月 11月 10月 09月 08月 07月 05月 04月 03月 02月 01月

原创 Python爬虫将数据存为csv格式时乱码的解决方法

1.用记事本的方式打开此csv文件2.点击另存为，编码设置为UTF-8，文件名后面加.csv如我之前爬取的网易云音乐的信息存进Exel然后就可以看到结果了

2019-01-31 23:59:31 9387 6

原创 12天Python爬虫学习的总结和思考

爬取网页的过程1.发送请求和获取相应2.对获取的response进行想要的信息的提取3.对信息进行存储(1)发送请求和相应基本的是requests库的使用共有参数：headersheaders以字典形式添加，有的网页需要多一点的头部信息才可以获得响应。可以人为的删除一些没必要的头部信息。nb一点的用法，生成随机的头部信息用fake_useragent这个库，要pip instal...

2019-01-31 00:39:40 1289

原创网易云音乐热歌榜爬取(用Jsonpath解析Json数据 + 面向对象写法)

要注意的一点是Jsonpath是从0开始数的，Xpath是从1开始数的一般写法（函数式）import requestsfrom requests.exceptions import RequestExceptionimport reimport jsonimport jsonpathimport csvimport timeheaders = { "User-Agent...

2019-01-30 14:51:06 3380

原创爬取三国演义小说全文进行词频统计并生成词云

from bs4 import BeautifulSoupimport requestsfrom multiprocessing import Poolimport timeimport jiebafrom PIL import Imagefrom wordcloud import WordCloudheaders = { 'User-Agent': 'Mozilla/5....

2019-01-29 15:44:16 2488

原创英雄联盟峡谷之巅前100爬取（动态网页+json格式解析）

目的是爬取英雄联盟官网的峡谷之巅前100的信息，经观察发现，每一页只有25个玩家的信息。先看网页源代码看到前面，结构清晰，很好抓取。到了中间部分发现只有前25个，后面的数据貌似被隐藏了。在此处可见，在翻页时加载了json文件于是就去抓包找json文件。。当翻页时，网站的url并没有改变，翻看前4页，通过抓包发现一共加载了3个json文件通过对比network下的3个json文件...

2019-01-29 00:31:07 1750

原创豆瓣音乐Top250爬取并写入数据库

先在谷歌浏览器获取cookie和post，让请求头nb一点from requests.exceptions import RequestExceptionfrom lxml import etreeimport requestsimport pymongoimport timeimport re#写入mongoDB数据库client = pymongo.MongoClient('...

2019-01-25 16:19:40 1075

原创简单练手：B站前100爬取

import requestsimport xlwtimport reheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'}de...

2019-01-24 21:05:53 414

原创爬取妹子图片

爬取图片有一个要注意的点是要对jpg那条链接在解析一次然后.write写入文件。import requestsimport re'''深入的源代码才能发现契机~'''headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' 'AppleWebKit/537.36 (KHTML, li...

2019-01-23 15:20:04 247

原创简单的练手实例：爬取酷我音乐排行榜前200并进Exel

这个实例用正则表达式最为简单import reimport requestsimport xlwtkey_value = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Sa...

2019-01-22 19:37:39 1011 1

原创将二维列表写进Exel套路

import xlwtdef getExel(mylist): #表头的标题 header = ['','',''] book = xlwt.Workbook(encoding='utf-8') sheet = book.add_sheet('Sheet1') for k in range(len(header)): sheet.w...

2019-01-22 19:28:04 127 1

原创实例4:爬取糗事百科文字区的信息

路线: requests + BeautifulSoup + re关键之处：具体估计是为了让爬取者麻烦一点，他在评论内容里加了’&lt; br &gt;'标签但是，这是阻止不了我们的嘻嘻。因为内容里加了’&lt; br &gt;'所以内容部分我们用BeautifulSoup的get_text()方法，把所有子节点的非属性字符串变为一个列表，让后用join方法把他们合并成一个完整的段子，这一...

2019-01-20 22:33:53 169

原创实例3:爬取斗破苍穹小说全文

呜呼~回到家的感觉真的不一样，下了广州站空气就清新了一番。。回到家就是熟悉而又陌生的感觉。这次的实例是爬取斗破苍穹小说网的斗破苍穹小说全文。首先要找的是原网站，不是百度到的最前面的。因为正版的蜘蛛协议也写得很清楚了。。而且里面的文本内容被藏起来了。无能为力，只能爬别的网啦哈哈。思路通常思路1. requests + Beautiful 2. requests + re这里我们比较一下这两...

2019-01-20 16:55:11 961

前端的知识对爬虫真的很重要哇，比如一个CSS的div、strong标签我以为是子标签取搜索，结果就懵逼了。原来这些属性的标签是不算的。故，需要小补一哈前端知识开爬虫会好一点。进入正题,这个和我之前的那个实例爬取中国大学排名有明显的不同，虽然都是html代码解析，还没出现JavaScript，不用正则表达式，但还是有值得探索的地方。对比：之前的样例仅仅是所有信息都在同一个名字的标签里面，只要一次下...

2019-01-19 00:09:52 621

原创慕课实例Python爬虫中国大学排名爬虫总结与思考

from bs4 import BeautifulSoupimport bs4import requestsdef get_html(url): '''获取网页的html源代码的文本字符串''' try: kv = {'user-agent': 'Mozzila/5.0'} # 设立头，提高爬取成功率 r = requests.get(ur...

2019-01-15 12:20:16 1905

spark-2.4.4-bin-hadoop2.6.tgz

2020-02-02

GetIPv6.py

爬取国外某网站提供的大量ipv6地址，保存为csv。

2019-06-22

zzulioj 1296 a/b+c/d

1296: a/b + c/d 时间限制: 1 Sec 内存限制: 128 MB 提交: 213 解决: 135 [提交] [状态] [讨论版] [命题人:外部导入] 题目描述给你2个分数，求他们的和，并要求和为最简形式。输入输入首先包含一个正整数T（T<=1000），表示有T组测试数据，然后是T行数据，每行包含四个正整数a,b,c,d 输出对于每组测试数据，输出两个整数e和f，表示a/b + c/d的最简化结果是e/f，每组输出占一行。样例输入 2 1 2 1 3 4 3 2 3 样例输出 5 6 2 1 来源/分类

2018-11-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Trial & Error