KeepChasing1-CSDN博客

转载 mac下python matplotlib中文乱码解决方案（亲测可用）！！

在网上找了一大堆方法，花了很久，发现不是要安装各种字体就是要改配置，而且字体真的不好找也不好安装就例如下面这两种办法，mac下根本不管用，别人管不管用我不知道，反正我试过了无效import numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']# 或者 plt.rc('font', family='SimHei', size=13)经过我折腾好久发现python还是自带可以显

2020-07-22 11:13:46 1347 4

转载关于机器学习的训练数据、验证数据和测试数据的形象比喻

机器学习最明显的一个特点是需要大量的数据。特别对监督学习来说，就是需要大量的带标签数据（labeled data）。很多入门的朋友很快就会遇见模型训练和测试这两个阶段，进而也就了解到带标签数据是要被划分成两个部分的：训练集 (training set) 与测试集 (test set)。这两个概念也很直观，大部分朋友非常快就能接受。可是到后面，在我们需要为机器学习模型调参的时候，半路杀出来了个交叉验证 (cross validation) 阶段，这个对应的数据集也有个名字，叫做验证集 (validat

2020-07-20 09:17:47 508

转载 matplotlib中plt.legend使用方法

plt.legend(loc='位置'),参数列表：(self,parent, handles, labels, loc=None, numpoints=None, markerscale=None, markerfirst=True, scatterpoints=None, scatteryoffsets=None, prop=None, fontsize=None, borderpad=None, labelspacing=None, handlelength=None, handlehei..

2020-07-19 11:14:38 5651 1

转载 ModuleNotFoundError: No module named ‘sklearn.cross_validation‘

from sklearn.cross_validation import KFoldfrom sklearn.cross_validation import train_test_split12sklearn更新后在执行以上代码时可能会出现这样的问题：ModuleNotFoundError: No module named 'sklearn.cross_validation'1如下图所示：此时可以考虑使用以下方法导入库：from sklearn.model_selection impo

2020-07-19 10:18:38 254

转载 kaggle数据分析实践项目练习——人力资源分析

学习完《利用python进行数据分析》之后，学习了Numpy，pandas，matplotlib几个包的使用，于是着手准备在kaggle上找数据集进行练习。在kaggle中找到了人力资源分析项目，看到不少人拿这个项目练手，本文将会分析为何公司的好员工过早离职？我要做的是，哪些因素对员工的离职产生了大的影响。数据来源：Human Resources Analytics | Kaggle1、导入数据##首先导入整理数据和数据可视化的包import pandas as pdimport

2020-07-10 16:50:34 5491

转载 Python关于%matplotlib inline

我在做一个比赛需要使用到LSTM模型对时间序列进行预测，然后在github代码中经常会看到这样的代码：import numpyimport matplotlib.pyplot as pltfrom pandas import read_csvimport mathfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.layers import LSTMfrom sklearn.prep.

2020-07-10 16:36:41 237

转载数据分析入门阶段——描述性统计分析和相关分析

数据分析的入门思维，首先要认识数据，然后对数据进行简单的分析，比如描述性统计分析和相关性分析等。一，认识变量和数据变量和数据是数据分析中常用的概念，用变量来描述事物的特征，而数据是变量的具体值，把变量的值也叫做观测值。1，变量变量是用来描述总体中成员的某一个特性，例如，性别、年龄、身高、收入等。变量可以分为：定性变量：用于分类，一般是文本，例如，性别、颜色定序变量：用于表示等级或次序的变量，例如，学历，职位，排名等，变量的值可以把事务排列为高低或大小，但是各个变量值之间没有确切的

2020-07-08 08:50:00 19535

转载 pandas中关于DataFrame行，列显示不完全（省略）的解决办法

#显示所有列pd.set_option('display.max_columns', None)#显示所有行pd.set_option('display.max_rows', None)#设置value的显示长度为100，默认为50pd.set_option('max_colwidth',100)

2020-07-08 08:47:36 541

转载 numpy库数组属性查看：类型、尺寸、形状、维度

import numpy as np a1 = np.array([1,2,3,4],dtype=np.complex128) print(a1) print("数据类型",type(a1)) #打印数组数据类型 print("数组元素数据类型：",a1.dtype) #打印数组元素数据类型 print("数组元素总数：",a1.size) #打印数组尺寸，即数组元素总数 print("数组形状：",a1.shape) #打印数..

2020-07-07 23:02:09 6725

转载 13 Scrapy框架介绍

# Author:Nimo_Ding'''练习 - 当当图书榜单爬虫前两关，我们学习了能提升爬虫速度的进阶知识——协程，并且通过项目实操，将协程运用于抓取薄荷网的食物数据。可能你在体验开发一个爬虫项目的完整流程时，会有这样的感觉：原来要完成一个完整的爬虫程序需要做这么多琐碎的工作。比如，要导入不同功能的模块，还要编写各种爬取流程的代码。而且根据不同的项目，每次要编写的代码也不同。不知道你会不会有这样的想法：能不能有一个现成的爬虫模板，让我们拿来就能套用，就像PPT模板一样。我们不需要管爬虫的.

2020-07-06 11:21:17 275

原创 MonkeyPatchWarning

# 报错：MonkeyPatchWarning: Monkey-patching ssl after ssl has already been imported may lead to errors, including RecursionError on Python 3.6. It may also silently lead to incorrect behaviour on Python 3.7. Please monkey-patch earlier. See https://github.

2020-07-05 20:02:37 423

转载 SSL: CERTIFICATE_VERIFY_FAILED

报错urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833)>1解...

2020-07-05 19:46:14 515

原创 10 爬取电影下载链接并发送邮件

# Author:Nimo_Ding'''练习介绍：在第3关的一个课后练习里，我们爬取了指定电影的下载链接；在第6关的一个课后练习里，我们存储了豆瓣TOP250的榜单信息。现在，我们完善这个程序，每周五在存储的榜单中，随机抽三部电影，然后去爬取这三部电影的下载链接，并把链接的结果发送到邮箱。'''import requests,random,csv,smtplib,schedule,timefrom bs4 import BeautifulSoupfrom urllib.request .

2020-07-05 14:14:31 853

原创 10 爬取天气并发送邮箱

# Author:Nimo_Ding'''目标：自动爬取每日的天气，并定时把天气数据和穿衣提示发送到你的邮箱smtplib库主要负责的是横向的连接服务器、登录、发送和退出；email库主要负责的是邮件主题和正文。'''import requestsimport scheduleimport timefrom bs4 import BeautifulSoupimport smtplib # smtplib是内置库，不需要用pip3安装from email.mime.text i.

2020-07-05 11:54:57 1255

原创 09 自动发表博客评论

# Author:Nimo_Ding'''要求：手动注册博客注册蜘蛛侠利用代码登录博客人人都是蜘蛛侠。在文章《未来已来（三）——同九义何汝秀》中，发表一个评论，这个评论中必须要带有“selenium”这个词。https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-login.php'''import timefrom selenium import webdriverdriver = webdriver.Chrome().

2020-07-04 23:32:59 353

原创 09 自动操作浏览器

# Author:Nimo_Ding'''目标：自动操作浏览器。.send_keys() # 模拟按键输入，自动填写表单.click() # 点击元素.clear() # 清除元素内容，如果空格中已经输入了'张三'，你想改成'吴峰'，就需要先用.clear()清除，再写新文字。'''import timefrom selenium import webdriverdriver = webdriver.Chrome()url='https://localprod.p.

2020-07-04 22:55:56 253

原创 09 selenium解析和提取数据的方法

# Author:Nimo_Ding'''selenium 是真实的模拟人操作浏览器，需要等待网页缓冲的时间.在爬取大量数据时就会比较慢，这是它的缺点。通常在爬虫项目中，selenium都是用在其他方法无法解决或很难解决问题的时候才会用到。学习文档：https://seleniumhq.github.io/selenium/docs/api/py/api.html https://selenium-python-zh.readthedocs.io/en/latest/静态网页.

2020-07-04 22:42:33 2295

转载如何简单地理解Python中的if name == ‘main‘

1. 摘要通俗的理解__name__ == '__main__'：假如你叫小明.py，在朋友眼中，你是小明(__name__ == '小明')；在你自己眼中，你是你自己(__name__ == '__main__')。if __name__ ...

2020-07-04 11:41:04 156

原创 08 自制简单翻译词典

# Author:Nimo_Ding'''目标：自己制作一个翻译词典'''import requests,jsonheaders = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}def translation(): url = 'http://fan.

2020-07-04 10:52:05 441

原创 08 练习小说推荐

# Author:Nimo_Ding'''目标：借助cookies的相关知识，使用Python登录小说网站，用代码的形式对热榜上的小说进行推荐。网站地址：https://www.xslou.com/小说楼的排行榜页：https://www.xslou.com/top/allvisit_1/'''import requestsfrom bs4 import BeautifulSoupheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.

2020-07-04 10:34:57 931

原创 08 登录博客发表评论_优化版本

# Author:Nimo_Ding'''最终优化：1、登录的时候自动调用cookies，就不用每次输入用户名和密码了。2、如果程序能读取到cookies，就自动登录发表评论，如果读取不到，就重新输用户名密码登录后再评论。cookies转化成字典的方法：requests.utils.dict_from_cookoejar(cj)cj:从中提取cookie的CookieJar对象返回类型：字典json模块使用方法：json.dumps() # 将Python对象编码成Json字符串.

2020-07-03 23:18:27 208

原创 06 csv文件的写入和读取

'''用csv格式存储数据读写比较方便，易于实现，文件也会比Excel文件小。但是csv文件缺少Excel文件的很多功能：比如不能嵌入图像和图表，不能生成公式。file=open('test.csv','a+')#创建test.csv文件，以追加的读写模式file.write('美国队长,钢铁侠,蜘蛛侠')#写入test.csv文件file.close()#关闭文件''''''open函数： r读，r只读；rb二进制只读；r+读写；rb+二进制读写； w写，w只..

2020-07-03 18:39:43 673

原创 06 Excel文件的写入和读取

# Author:Nimo_Ding'''excel文件写入步骤：创建工作簿-用openpyxl.Workbook()函数创建workbook对象获取工作表-workbook对象的active属性操作单元格-单元格sheet['A1'];一行append() 保存工作簿-save()excel文件读取工作簿：打开工作簿-用openpyxl.load_workbook()函数创建workbook对象获取工作表-workbook对象的键，wb.

2020-07-03 18:39:04 295

原创 05 爬取周杰伦所有歌单

# Author:Nimo_Ding'''目标：爬取周杰伦所有歌单'''import requestsurl = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'headers = { 'origin':'https://y.qq.com', # 请求来源，本案例中其实是不需要加这个参数的，只是为了演示 'referer':'https://y.qq.com/n/yqq/song/004Z8Ihr0JIu5s..

2020-07-03 14:42:57 718

原创 05 爬取七里香歌曲最新评论

# Author:Nimo_Ding'''目标：获取七里香歌曲的所有最新评论。先了解什么是"带参数请求数据"：Request URL:'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg?g_tk_new_20200303=5381&g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=GB23.

2020-07-03 14:21:20 275

原创 04 爬取周杰伦首页歌单

# Author:Nimo_Ding'''目标：爬取周杰伦的歌曲清单'''import requestsfrom bs4 import BeautifulSoupheaders = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}url='https.

2020-07-03 13:42:56 543

原创 03 练习一键下载电影

# Author:Nimo_Ding'''我们想要实现这样的功能：用户输入喜欢的电影名字，程序即可在电影天堂https://www.ygdy8.com爬取电影所对应的下载链接，并将下载链接打印出来。'''import requestsfrom bs4 import BeautifulSoupfrom urllib.request import quote# quote()函数，可以帮我们把内容转为标准的url格式，作为网址的一部分打开# 输入变形金刚的话，就会转成这样：%B1%E4%.

2020-07-03 10:57:17 574

原创 03 练习爬取豆瓣电影top250

# Author:Nimo_Ding'''问题需求：把豆瓣TOP250里面的序号/电影名/评分/推荐语/链接都爬取下来，结果就是全部展示打印出来https://movie.douban.com/top250?start=0&filter='''import requests# 引用BeautifulSoup库from bs4 import BeautifulSoupheaders = { 'User-Agent': 'Mozilla/5.0 (Macintosh.

2020-07-03 10:41:04 1013

原创 03 爬取菜谱清单

# Author:Nimo_Ding'''分析：我们要爬取热门菜谱清单，内含：菜名、原材料、详细烹饪流程的URL地址：http://www.xiachufang.com/explore/在进行爬取之前，我们先去看看它的robots协议：http://www.xiachufang.com/robots.txt你会发现：我们要爬取的/explore/不在禁止爬取的列表内，但如果你要爬取/recipe/服务器就会不欢迎。在网页里，recipe是每一道菜的详情页面，记录了这道菜的做法。如果你真要.

2020-07-03 09:28:59 424

原创 02 练习爬取网上书店

# Author:Nimo_Ding'''第一个练习：题目要求：你需要爬取的是网上书店Books to Scrape中所有书的分类类型，并且将它们打印出来。它的位置就在网页的左侧，如：Travel，Mystery，Historical Fiction…等。http://books.toscrape.com/'''import requestsfrom bs4 import BeautifulSouphtml=requests.get('http://books.toscrape.c.

2020-07-02 23:26:24 2143

原创 02 练习爬取博客评论

# Author:Nimo_Ding'''爬取博客【人人都是蜘蛛侠】中，《未来已来（四）——Python学习进阶图谱》文章的默认评论页，并且打印。https://wordpress-edu-3autumn.localprod.oc.forchange.cn/all-about-the-future_04/'''import requestsfrom bs4 import BeautifulSouphtml=requests.get('https://wordpress-edu-3autu.

2020-07-02 22:47:25 997

原创 02 BeautifulSoup

# Author:Nimo_Ding'''爬虫四个步骤：获取数据 - requests库完成解析数据 - BeautifulSoup网页解析库完成提取数据 - BeautifulSoup网页解析库完成保存数据BeautifulSoup库目前已经进阶到第4版了安装：pip3 install BeautifulSoup4'''# 调用requests库import requests# 调用BeautifulSoup库from bs4 import BeautifulSoup.

2020-07-02 22:30:56 199

原创 01 HTML

# Author:Nimo_Ding'''当我们在Chrome浏览器上，拿着url向服务器发出请求的时候，服务返回的是一个带有HTML文档的数据包，经过浏览器解析，网页才能在窗口上正常呈现。但是Python请求了远程服务器后，拿到的内容会是一份HTML文档什么是HTML：HTML是用来描述网页的一种语言，英文全称是Hyper Text Markup Language，也叫超文本标记语言。基本格式：<!DOCTYPE html><html> <h.

2020-07-02 20:10:02 455

原创 00 练习文章图片音频下载

# Author:Nimo_Ding'''练习要求：获取文章《HTTP状态响应码》全部内容，并且打印出全文内容。'''import requestsres=requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md')print(res.text)code=open(.

2020-07-02 19:18:16 230

原创 HTTP响应状态码

https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md# HTTP响应状态码## 1xx：临时响应#### 表示临时响应并需要请求者继续执行操作的状态代码。100 **继续**请求者应当继续提出请求。服务器返回此代码表示已收到请求的第一部分，正在等待其余部分。 101 **切换协议*.

2020-07-02 19:06:41 165

原创 00 初识爬虫

# Author:Nimo_Ding'''爬虫的工作原理：第0步：获取数据。爬虫程序会根据我们提供的网址，向服务器发起请求，然后返回数据。第1步：解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。第2步：提取数据。爬虫程序再从中提取出我们需要的数据。第3步：储存数据。爬虫程序把这些有用的数据保存起来，便于你日后的使用和分析。这就是爬虫的工作原理啦，无论之后的学习内容怎样变化，其核心都是爬虫原理。'''# 体验爬虫# 获取...

2020-07-02 19:02:57 308

原创 15 Python数据可视化_作业

# Author:Nimo_Ding'''Seaborn数据集自带了car_crashes数据集，这是一个国外车祸的数据集。1、请对这个数据集进行成对关系的探索2、请用Seaborn画二元变量分布图，scatter、kde、hex'''import seaborn as snsimport matplotlib.pyplot as pltimport sslcar_crashes=sns.load_dataset('car_crashes')print(car_crashes.hea.

2020-07-02 08:29:12 2618 1

原创 15 Python数据可视化

# Author:Nimo_Ding'''按照数据之间的关系，将可视化视图划分为四类：1、比较：比较数据间各类别的关系，或随时间变化趋势，例如折线图2、联系：变量之间的关系，例如散点图3、构成：每个部分占整体的百分比，或随百分比变化，比如饼图4、分布：关注单个/多个变量分布情况，比如直方图'''# 1、散点图scatter plot，适合展示两个变量之间的关系。import matplotlib.pyplot as pltimport sea.

2020-07-02 08:22:36 585

原创 14 数据可视化

# Author:Nimo_Ding'''常用的可视化视图：文本表、热力图、地图、面积图、饼图、散点图、甘特图、气泡图、靶心图、树状图、堆叠条某个变量的分布情况：直方图两个变量之间的相关性、分布情况：散点图商业智能分析软件： Tableau：国外软件，适合BI工程师，数据分析师微软的Power BI：微软产品，可以与Excel无缝连接中国帆软的Fine BI：中国帆软产品，倾向于企业级应用BI可视化大屏： DataV：阿里巴巴产品，天猫双十一大屏就是用.

2020-07-01 17:56:05 344

原创 13 数据变换规范化方法

# Author:Nimo_Ding'''数据规范化的三种方法：1、Mix-max规范化将数据归到[0,1]区间2、Z-Score规范化将数据规范到0均值，1方差的标准正态分布上，减少我们说的百分制80分，500分制80分的数据值差异问题3、小数定标规范化将数据转化为[-1,1]区间内。'''# Python的SciKit-Learn库的使用# 使用SciKit-Learn进行数据规范化print('\n# 1、Min-max规范化')'''让原始数.

2020-07-01 17:20:46 1273

空空如也

空空如也