自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 收藏
  • 关注

转载 mac下python matplotlib中文乱码解决方案(亲测可用)!!

在网上找了一大堆方法,花了很久,发现不是要安装各种字体就是要改配置,而且字体真的不好找也不好安装就例如下面这两种办法,mac下根本不管用,别人管不管用我不知道,反正我试过了无效import numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']# 或者 plt.rc('font', family='SimHei', size=13)经过我折腾好久发现python还是自带可以显

2020-07-22 11:13:46 1240 4

转载 关于机器学习的训练数据、验证数据和测试数据的形象比喻

机器学习最明显的一个特点是需要大量的数据。特别对监督学习来说,就是需要大量的带标签数据(labeled data)。很多入门的朋友很快就会遇见模型训练和测试这两个阶段,进而也就了解到带标签数据是要被划分成两个部分的:训练集 (training set) 与测试集 (test set)。这两个概念也很直观,大部分朋友非常快就能接受。可是到后面,在我们需要为机器学习模型调参的时候,半路杀出来了个交叉验证 (cross validation) 阶段,这个对应的数据集也有个名字,叫做验证集 (validat

2020-07-20 09:17:47 435

转载 matplotlib中plt.legend使用方法

plt.legend(loc='位置'),参数列表:(self,parent, handles, labels, loc=None, numpoints=None, markerscale=None, markerfirst=True, scatterpoints=None, scatteryoffsets=None, prop=None, fontsize=None, borderpad=None, labelspacing=None, handlelength=None, handlehei..

2020-07-19 11:14:38 5566 1

转载 ModuleNotFoundError: No module named ‘sklearn.cross_validation‘

from sklearn.cross_validation import KFoldfrom sklearn.cross_validation import train_test_split12sklearn更新后在执行以上代码时可能会出现这样的问题:ModuleNotFoundError: No module named 'sklearn.cross_validation'1如下图所示:此时可以考虑使用以下方法导入库:from sklearn.model_selection impo

2020-07-19 10:18:38 218

转载 kaggle数据分析实践项目练习——人力资源分析

学习完《利用python进行数据分析》之后,学习了Numpy,pandas,matplotlib几个包的使用,于是着手准备在kaggle上找数据集进行练习。在kaggle中找到了人力资源分析项目,看到不少人拿这个项目练手,本文将会分析为何公司的好员工过早离职?我要做的是,哪些因素对员工的离职产生了大的影响。数据来源:Human Resources Analytics | Kaggle1、导入数据##首先导入整理数据和数据可视化的包import pandas as pdimport

2020-07-10 16:50:34 4762

转载 Python关于%matplotlib inline

我在做一个比赛需要使用到LSTM模型对时间序列进行预测,然后在github代码中经常会看到这样的代码:import numpyimport matplotlib.pyplot as pltfrom pandas import read_csvimport mathfrom keras.models import Sequentialfrom keras.layers import Densefrom keras.layers import LSTMfrom sklearn.prep.

2020-07-10 16:36:41 203

转载 数据分析入门阶段——描述性统计分析和相关分析

数据分析的入门思维,首先要认识数据,然后对数据进行简单的分析,比如描述性统计分析和相关性分析等。一,认识变量和数据变量和数据是数据分析中常用的概念,用变量来描述事物的特征,而数据是变量的具体值,把变量的值也叫做观测值。1,变量变量是用来描述总体中成员的某一个特性,例如,性别、年龄、身高、收入等。变量可以分为:定性变量:用于分类,一般是文本,例如,性别、颜色 定序变量:用于表示等级或次序的变量,例如,学历,职位,排名等,变量的值可以把事务排列为高低或大小,但是各个变量值之间没有确切的

2020-07-08 08:50:00 17380

转载 pandas中关于DataFrame行,列显示不完全(省略)的解决办法

#显示所有列pd.set_option('display.max_columns', None)#显示所有行pd.set_option('display.max_rows', None)#设置value的显示长度为100,默认为50pd.set_option('max_colwidth',100)

2020-07-08 08:47:36 505

转载 numpy库数组属性查看:类型、尺寸、形状、维度

import numpy as np a1 = np.array([1,2,3,4],dtype=np.complex128) print(a1) print("数据类型",type(a1)) #打印数组数据类型 print("数组元素数据类型:",a1.dtype) #打印数组元素数据类型 print("数组元素总数:",a1.size) #打印数组尺寸,即数组元素总数 print("数组形状:",a1.shape) #打印数..

2020-07-07 23:02:09 6482

转载 13 Scrapy框架介绍

# Author:Nimo_Ding'''练习 - 当当图书榜单爬虫前两关,我们学习了能提升爬虫速度的进阶知识——协程,并且通过项目实操,将协程运用于抓取薄荷网的食物数据。可能你在体验开发一个爬虫项目的完整流程时,会有这样的感觉:原来要完成一个完整的爬虫程序需要做这么多琐碎的工作。比如,要导入不同功能的模块,还要编写各种爬取流程的代码。而且根据不同的项目,每次要编写的代码也不同。不知道你会不会有这样的想法:能不能有一个现成的爬虫模板,让我们拿来就能套用,就像PPT模板一样。我们不需要管爬虫的.

2020-07-06 11:21:17 243

原创 MonkeyPatchWarning

# 报错:MonkeyPatchWarning: Monkey-patching ssl after ssl has already been imported may lead to errors, including RecursionError on Python 3.6. It may also silently lead to incorrect behaviour on Python 3.7. Please monkey-patch earlier. See https://github.

2020-07-05 20:02:37 376

转载 SSL: CERTIFICATE_VERIFY_FAILED

报错urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:833)>1解...

2020-07-05 19:46:14 464

原创 10 爬取电影下载链接并发送邮件

# Author:Nimo_Ding'''练习介绍:在第3关的一个课后练习里,我们爬取了指定电影的下载链接;在第6关的一个课后练习里,我们存储了豆瓣TOP250的榜单信息。现在,我们完善这个程序,每周五在存储的榜单中,随机抽三部电影,然后去爬取这三部电影的下载链接,并把链接的结果发送到邮箱。'''import requests,random,csv,smtplib,schedule,timefrom bs4 import BeautifulSoupfrom urllib.request .

2020-07-05 14:14:31 795

原创 10 爬取天气并发送邮箱

# Author:Nimo_Ding'''目标:自动爬取每日的天气,并定时把天气数据和穿衣提示发送到你的邮箱smtplib库主要负责的是横向的连接服务器、登录、发送和退出;email库主要负责的是邮件主题和正文。'''import requestsimport scheduleimport timefrom bs4 import BeautifulSoupimport smtplib # smtplib是内置库,不需要用pip3安装from email.mime.text i.

2020-07-05 11:54:57 1077

原创 09 自动发表博客评论

# Author:Nimo_Ding'''要求:手动注册博客注册蜘蛛侠利用代码登录博客人人都是蜘蛛侠。在文章《未来已来(三)——同九义何汝秀》中,发表一个评论,这个评论中必须要带有“selenium”这个词。https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-login.php'''import timefrom selenium import webdriverdriver = webdriver.Chrome().

2020-07-04 23:32:59 311

原创 09 自动操作浏览器

# Author:Nimo_Ding'''目标:自动操作浏览器。.send_keys() # 模拟按键输入,自动填写表单.click() # 点击元素.clear() # 清除元素内容,如果空格中已经输入了'张三',你想改成'吴峰',就需要先用.clear()清除,再写新文字。'''import timefrom selenium import webdriverdriver = webdriver.Chrome()url='https://localprod.p.

2020-07-04 22:55:56 212

原创 09 selenium解析和提取数据的方法

# Author:Nimo_Ding'''selenium 是真实的模拟人操作浏览器,需要等待网页缓冲的时间.在爬取大量数据时就会比较慢,这是它的缺点。通常在爬虫项目中,selenium都是用在其他方法无法解决或很难解决问题的时候才会用到。学习文档:https://seleniumhq.github.io/selenium/docs/api/py/api.html https://selenium-python-zh.readthedocs.io/en/latest/静态网页.

2020-07-04 22:42:33 2204

转载 如何简单地理解Python中的if __name__ == ‘__main__‘

1. 摘要通俗的理解__name__ == '__main__':假如你叫小明.py,在朋友眼中,你是小明(__name__ == '小明');在你自己眼中,你是你自己(__name__ == '__main__')。if __name__ ...

2020-07-04 11:41:04 129

原创 08 自制简单翻译词典

# Author:Nimo_Ding'''目标:自己制作一个翻译词典'''import requests,jsonheaders = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36'}def translation(): url = 'http://fan.

2020-07-04 10:52:05 411

原创 08 练习小说推荐

# Author:Nimo_Ding'''目标:借助cookies的相关知识,使用Python登录小说网站,用代码的形式对热榜上的小说进行推荐。网站地址:https://www.xslou.com/小说楼的排行榜页:https://www.xslou.com/top/allvisit_1/'''import requestsfrom bs4 import BeautifulSoupheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.

2020-07-04 10:34:57 533

原创 08 登录博客发表评论_优化版本

# Author:Nimo_Ding'''最终优化:1、登录的时候自动调用cookies,就不用每次输入用户名和密码了。2、如果程序能读取到cookies,就自动登录发表评论,如果读取不到,就重新输用户名密码登录后再评论。cookies转化成字典的方法:requests.utils.dict_from_cookoejar(cj)cj:从中提取cookie的CookieJar对象返回类型:字典json模块使用方法:json.dumps() # 将Python对象编码成Json字符串.

2020-07-03 23:18:27 176

原创 06 csv文件的写入和读取

'''用csv格式存储数据读写比较方便,易于实现,文件也会比Excel文件小。但是csv文件缺少Excel文件的很多功能:比如不能嵌入图像和图表,不能生成公式。file=open('test.csv','a+')#创建test.csv文件,以追加的读写模式file.write('美国队长,钢铁侠,蜘蛛侠')#写入test.csv文件file.close()#关闭文件''''''open函数: r读,r只读;rb二进制只读;r+读写;rb+二进制读写; w写,w只..

2020-07-03 18:39:43 630

原创 06 Excel文件的写入和读取

# Author:Nimo_Ding'''excel文件写入步骤: 创建工作簿-用openpyxl.Workbook()函数创建workbook对象 获取工作表-workbook对象的active属性 操作单元格-单元格sheet['A1'];一行append() 保存工作簿-save()excel文件读取工作簿: 打开工作簿-用openpyxl.load_workbook()函数创建workbook对象 获取工作表-workbook对象的键,wb.

2020-07-03 18:39:04 270

原创 05 爬取周杰伦所有歌单

# Author:Nimo_Ding'''目标:爬取周杰伦所有歌单'''import requestsurl = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'headers = { 'origin':'https://y.qq.com', # 请求来源,本案例中其实是不需要加这个参数的,只是为了演示 'referer':'https://y.qq.com/n/yqq/song/004Z8Ihr0JIu5s..

2020-07-03 14:42:57 618

原创 05 爬取七里香歌曲最新评论

# Author:Nimo_Ding'''目标:获取七里香歌曲的所有最新评论。先了解什么是"带参数请求数据":Request URL:'https://c.y.qq.com/base/fcgi-bin/fcg_global_comment_h5.fcg?g_tk_new_20200303=5381&g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=GB23.

2020-07-03 14:21:20 233

原创 04 爬取周杰伦首页歌单

# Author:Nimo_Ding'''目标:爬取周杰伦的歌曲清单'''import requestsfrom bs4 import BeautifulSoupheaders = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}url='https.

2020-07-03 13:42:56 494

原创 03 练习一键下载电影

# Author:Nimo_Ding'''我们想要实现这样的功能:用户输入喜欢的电影名字,程序即可在电影天堂https://www.ygdy8.com爬取电影所对应的下载链接,并将下载链接打印出来。'''import requestsfrom bs4 import BeautifulSoupfrom urllib.request import quote# quote()函数,可以帮我们把内容转为标准的url格式,作为网址的一部分打开# 输入变形金刚的话,就会转成这样:%B1%E4%.

2020-07-03 10:57:17 530

原创 03 练习爬取豆瓣电影top250

# Author:Nimo_Ding'''问题需求:把豆瓣TOP250里面的 序号/电影名/评分/推荐语/链接 都爬取下来,结果就是全部展示打印出来https://movie.douban.com/top250?start=0&filter='''import requests# 引用BeautifulSoup库from bs4 import BeautifulSoupheaders = { 'User-Agent': 'Mozilla/5.0 (Macintosh.

2020-07-03 10:41:04 959

原创 03 爬取菜谱清单

# Author:Nimo_Ding'''分析:我们要爬取热门菜谱清单,内含:菜名、原材料、详细烹饪流程的URL地址:http://www.xiachufang.com/explore/在进行爬取之前,我们先去看看它的robots协议:http://www.xiachufang.com/robots.txt你会发现:我们要爬取的/explore/不在禁止爬取的列表内,但如果你要爬取/recipe/服务器就会不欢迎。在网页里,recipe是每一道菜的详情页面,记录了这道菜的做法。如果你真要.

2020-07-03 09:28:59 373

原创 02 练习爬取网上书店

# Author:Nimo_Ding'''第一个练习:题目要求:你需要爬取的是网上书店Books to Scrape中所有书的分类类型,并且将它们打印出来。它的位置就在网页的左侧,如:Travel,Mystery,Historical Fiction…等。http://books.toscrape.com/'''import requestsfrom bs4 import BeautifulSouphtml=requests.get('http://books.toscrape.c.

2020-07-02 23:26:24 2035

原创 02 练习爬取博客评论

# Author:Nimo_Ding'''爬取博客【人人都是蜘蛛侠】中,《未来已来(四)——Python学习进阶图谱》文章的默认评论页,并且打印。https://wordpress-edu-3autumn.localprod.oc.forchange.cn/all-about-the-future_04/'''import requestsfrom bs4 import BeautifulSouphtml=requests.get('https://wordpress-edu-3autu.

2020-07-02 22:47:25 895

原创 02 BeautifulSoup

# Author:Nimo_Ding'''爬虫四个步骤:获取数据 - requests库完成解析数据 - BeautifulSoup网页解析库完成提取数据 - BeautifulSoup网页解析库完成保存数据BeautifulSoup库目前已经进阶到第4版了安装:pip3 install BeautifulSoup4'''# 调用requests库import requests# 调用BeautifulSoup库from bs4 import BeautifulSoup.

2020-07-02 22:30:56 171

原创 01 HTML

# Author:Nimo_Ding'''当我们在Chrome浏览器上,拿着url向服务器发出请求的时候,服务返回的是一个带有HTML文档的数据包,经过浏览器解析,网页才能在窗口上正常呈现。但是Python请求了远程服务器后,拿到的内容会是一份HTML文档什么是HTML:HTML是用来描述网页的一种语言,英文全称是Hyper Text Markup Language,也叫超文本标记语言。基本格式:<!DOCTYPE html><html> <h.

2020-07-02 20:10:02 400

原创 00 练习文章图片音频下载

# Author:Nimo_Ding'''练习要求:获取文章《HTTP状态响应码》全部内容,并且打印出全文内容。'''import requestsres=requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md')print(res.text)code=open(.

2020-07-02 19:18:16 195

原创 HTTP响应状态码

https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md# HTTP响应状态码## 1xx:临时响应#### 表示临时响应并需要请求者继续执行操作的状态代码。100 **继续**请求者应当继续提出请求。服务器返回此代码表示已收到请求的第一部分,正在等待其余部分。 101 **切换协议*.

2020-07-02 19:06:41 143

原创 00 初识爬虫

# Author:Nimo_Ding'''爬虫的工作原理:第0步:获取数据。 爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据。第1步:解析数据。 爬虫程序会把服务器返回的数据解析成我们能读懂的格式。第2步:提取数据。 爬虫程序再从中提取出我们需要的数据。第3步:储存数据。 爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析。这就是爬虫的工作原理啦,无论之后的学习内容怎样变化,其核心都是爬虫原理。'''# 体验爬虫# 获取...

2020-07-02 19:02:57 253

原创 15 Python数据可视化_作业

# Author:Nimo_Ding'''Seaborn数据集自带了car_crashes数据集,这是一个国外车祸的数据集。1、请对这个数据集进行成对关系的探索2、请用Seaborn画二元变量分布图,scatter、kde、hex'''import seaborn as snsimport matplotlib.pyplot as pltimport sslcar_crashes=sns.load_dataset('car_crashes')print(car_crashes.hea.

2020-07-02 08:29:12 2545 1

原创 15 Python数据可视化

# Author:Nimo_Ding'''按照数据之间的关系,将可视化视图划分为四类:1、比较: 比较数据间各类别的关系,或随时间变化趋势,例如折线图2、联系: 变量之间的关系,例如散点图3、构成: 每个部分占整体的百分比,或随百分比变化,比如饼图4、分布: 关注单个/多个变量分布情况,比如直方图'''# 1、散点图scatter plot,适合展示两个变量之间的关系。import matplotlib.pyplot as pltimport sea.

2020-07-02 08:22:36 533

原创 14 数据可视化

# Author:Nimo_Ding'''常用的可视化视图:文本表、热力图、地图、面积图、饼图、散点图、甘特图、气泡图、靶心图、树状图、堆叠条某个变量的分布情况:直方图两个变量之间的相关性、分布情况:散点图商业智能分析软件: Tableau:国外软件,适合BI工程师,数据分析师 微软的Power BI:微软产品,可以与Excel无缝连接 中国帆软的Fine BI:中国帆软产品,倾向于企业级应用BI可视化大屏: DataV:阿里巴巴产品,天猫双十一大屏就是用.

2020-07-01 17:56:05 311

原创 13 数据变换 规范化方法

# Author:Nimo_Ding'''数据规范化的三种方法:1、Mix-max规范化 将数据归到[0,1]区间2、Z-Score规范化 将数据规范到0均值,1方差的标准正态分布上,减少我们说的百分制80分,500分制80分的数据值差异问题3、小数定标规范化 将数据转化为[-1,1]区间内。'''# Python的SciKit-Learn库的使用# 使用SciKit-Learn进行数据规范化print('\n# 1、Min-max规范化')'''让原始数.

2020-07-01 17:20:46 1201

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除