自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 Programming Collective Intelligence notes

Programming Collective Intelligence notes第二章 提供推荐引言  协同过滤首次出现在《Using collaborative filtering to weave an information tapestry》论文中。他设计了一个名叫Tapesrty的系统,该系统允许人们根据自己对文档感兴趣的程度为其添加标注,并利用这一信息为他人进行文档过滤。搜集...

2019-02-16 16:26:15 213 1

原创 【动态规划】求解最长公共子序列

以下是求解最长公共子序列的python代码 #输入数据X=['A','B','C','B','D','A','B']Y=['B','D','C','A','B','A']m=len(X)n=len(Y)#计算各子问题的解,即求解c、b矩阵import numpy as npc=np.zeros([m+1,n+1],int)b=np.zeros([m+1,n+1],(str,1...

2018-10-21 22:08:24 291

原创 【seaborn数据集导入问题】SSL安全验证

在楼主苦哈哈地听讲座的时候,遇上一行非常常见的代码import seaborn as snssns.load_dataset('tips')这其实就是从seaborn这个包里面导出一个名为tips的数据集,看起来非常简单对不对,调用一下代码就行了,不需要用网页访问的函数!但是,在我写完这行代码,开开心心地点运行的时候,报错了现实就是如此残酷。那么我们看下,报错的提示是什么:...

2018-10-21 18:42:56 4738 2

原创 【菜鸟教程笔记】python面向对象

Python在设计之初就是一门面向对象的语言,因此在python中创建一个类和对象是很容易的。 

2018-09-25 16:23:37 432

原创 【利用python进行数据分析】时间序列

时间序列(time series)数据是一种重要的结构化数据形式。时间序列数据的意义取决于具体的应用场景,主要有:时间戳(timestamp);固定时期(period);时间间隔(interval);实验或过程时间最简单也最常见的时间序列是用时间戳进行索引的。pandas提供了一组标准的时间序列处理工具和数据算法,可以高效处理非常大的时间序列,轻松进行切片/切块、聚合、对定期/不定期对...

2018-09-24 17:26:30 305

原创 【利用python进行数据分析】数据聚合与分组运算

在将数据集准备好了之后,通常的任务是计算分组统计或生成透视表。pandas提供了groupby功能,可以自然地对数据集进行切片、切块和摘要。在本章中,我们将会学到:1根据一个或多个键(函数、数组或DataFrame列名)拆分pandas对象2.计算分组摘要统计,如计数、平均值,标准差3.对DataFrame的列应用各种各样的函数4.计算透视表或交叉表5.执行分位数分析以...

2018-09-21 12:34:15 1462

原创 【利用python进行数据分析】绘图和可视化

通常的引入约定是:import matplotlib.pyplot as pltfig,axes=plt.subplots(2,3)这种用法,可以一下子产生2x3个子窗口,并且以numpy数组的方式保存在axes中,而fig仍然是整个图像对象,这样我们可以通过对axes进行索引来访问每个子窗口。wspace和hspace用于控制宽度和高度的百分比,可以用作subplot之间的间距。...

2018-09-15 21:42:05 1901

原创 【利用python进行数据分析】数据规整化:清理、转换、合并、重塑

一、合并数据集数据库风格的DataFrame合并数据集的合并merge或连接join运算是通过一个或多个键将行链接起来。【一句话解释:merge就相当于join】如果没有指定哪个列进行连接,merge会自动将重叠列的列名当作键。显示指示通过on来指定:pd.merge(df1,df2,on='key')merge默认的是inner连接,结果中的键是交集。其他的方式还有‘le...

2018-09-05 23:53:39 431

原创 【利用python进行数据分析】数据加载、存储与文件格式

输入输出可以划分为几个大类:1.读取文本文件和其他更高效的磁盘存储格式2.加载数据库中的数据3.利用Web API操作网络资源---------------------------------------------------------------------------一、读写文本格式的数据以逗号分隔的文件使用pd.read_csv。表头的第一行会自动...

2018-09-03 12:07:54 1517

原创 【利用python进行数据分析】pandas入门

pandas引入约定:注:因为Series和DataFrame用的次数多,因此引入本地命名空间中更方便。pandas的两个主要数据结构:Series和DataFrame一、SeriesSeries由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(索引)组成。Series有values和index两个属性,表示数组形式和其索引对象。可以自己设置ind...

2018-08-29 23:28:52 539

原创 【利用Python进行数据分析】Numpy基础:数组和矢量计算

Numpy的部分功能:对于大数据分析,作者最关心的功能是一、ndarray:一种多维数据对象【行内直接称为数组】可以直接相加,得到的结果为对应元素的相加;可以直接乘以一个数,得到的结果为对应元素的乘积。每个数组都有一个shape和一个dtype1.创建ndarraydata=[1,2,3,4]arr1=np.array(data)arr1:array([...

2018-08-24 00:11:05 457

转载 【SQL】时间函数

下面的表格列出了 MySQL 中最重要的内建日期函数:函数 描述 NOW() 返回当前的日期和时间 CURDATE() 返回当前的日期 CURTIME() 返回当前的时间 DATE() 提取日期或日期/时间表达式的日期部分 EXTRACT() 返回日期/时间的单独部分 DATE_ADD() 向日期添加指定的时间间隔 DATE...

2018-08-16 00:07:14 437

原创 【菜鸟教程笔记】Python-Mysql连接

首先要安装PyMySQL包 pip install PyMySQL数据库连接:db = pymysql.connect("localhost","用户名","密码","数据库" )# 使用 cursor() 方法创建一个游标对象cursor cursor = db.cursor()# 使用 execute() 方法执行 SQL 查询cursor.execute("SELEC...

2018-08-15 17:05:47 736

转载 【转载】Mysql下载安装教程

本文仅为方便自记,单纯作为笔记方便查阅,观者请移步原作者博客:https://blog.csdn.net/weixin_40396510/article/details/79277731#commentsedit1:下载MySql 官网下载地址:https://dev.mysql.com/downloads/mysql/ 选择对应的下载文件。(我电脑是64位,所以这下载的是64位的下载...

2018-08-15 00:22:25 223

原创 【菜鸟教程笔记】Python日期和时间

本节讨论的是time模块,首先需要import time1.时间元组的概念获取当前时间戳:time.time()每个时间戳都以自从1970年1月1日午夜(历元)经过了多长时间来表示。获取当前时间的时间元组形式:time.localtime()获取最简单的可读的时间模式:time.asctime()python中时间日期格式化符号:%y 两位数的年份表示(...

2018-08-14 18:15:23 403

转载 【菜鸟教程笔记】beautifulsoup高级用法

静觅的博客进行了很详细的讲解,博客网址为:https://cuiqingcai.com/1319.html    官方教学网页源码: <html> <head> <title>Page title</title> </head> <body> ...

2018-08-13 21:31:53 2625 1

原创 【菜鸟教程笔记】Python正则表达式

re.match函数re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。re.match生成的对象需要group用法提取出所需要的匹配出的对象。括号括起来的代表一个单独的组,可以用group(n)来提取re.search方法re.search 扫描整个字符串并返回第一个成功的匹配。span()给出的是...

2018-08-13 11:39:51 935

原创 【菜鸟教程笔记】Python3 File文件方法

File对象使用open函数创建,下表列出了file对象常用的函数:

2018-07-27 16:36:23 439

原创 【菜鸟教程笔记】python数据结构

strip()方法用于去除字符串首尾的空格。遍历技巧在字典中遍历时,关键字和对应的值可以使用items()方法同时解读出来: 在序列中遍历时,索引位置和对应值可以使用enumerate()函数同时得到:同时遍历两个或更多的序列,可以使用zip()组合:  要反向遍历一个序列,首先指定这个序列,然后调用 reversed() 函数:要按顺序遍历一个序列,使用 ...

2018-07-27 15:54:07 737

原创 【菜鸟教程笔记】Python匿名函数

Python使用lambda来创建匿名函数。所谓匿名,意即不再使用 def 语句这样标准的形式定义一个函数。lambda 只是一个表达式,函数体比 def 简单很多。 lambda的主体是一个表达式,而不是一个代码块。仅仅能在lambda表达式中封装有限的逻辑进去。 lambda 函数拥有自己的命名空间,且不能访问自己参数列表之外或全局命名空间里的参数。 虽然lambda函数看起来只...

2018-07-25 23:07:37 591

原创 【菜鸟教程笔记】迭代器与生成器

今日提醒:end 关键字。关键字end可以用于将结果输出到同一行,在输出的末尾添加指定的字符。例:list=[1,2,3,4]it=iter(list)for x in it:    print(x,end=" ")>>>1 2 3 4迭代是Python最强大的功能之一,是访问集合元素的一种方式。迭代器是一个可以记住遍历的位置的对象,从集合的i一个...

2018-07-25 22:32:41 187

原创 【菜鸟教程笔记】Python循环

开篇一个小提示:input()输入的任何内容都是字符串形式。【与本章节无关】循环有while语句和for语句。注意:无限循环你可以使用 CTRL+C 来中断循环。for可以接else,当for循环体不执行的时候,执行else语句。画重点:break和continue语句及循环中的else子句range()函数生成序列时可以指定增量。例如range(0,10,3):0,3,6...

2018-07-25 17:52:39 376

原创 【菜鸟教程笔记】Python3 集合

集合set是一个无序不重复元素的序列。 可以使用{}或者set()函数创建集合。要点:创建空集合只能使用set(),如果用{}会被认为是创建了空字典。不同时包含于a和b的元素用a^b表示注意:字符串直接作为set的参数输入,会认为字符串中的每个字符是一个元素。集合推导式(set comprehension)a={x for x in 'abracadabra' if x n...

2018-07-25 11:48:45 797

原创 爬虫实战:遇上gb2312编码的网页

网页使用什么编码方式(utf-8,gbk,gb2312)等对实际内容的提取影响不大,并不会报错,但爬取到的中文可能存在乱码的现象。虽然现在大部分采用utf-8的网页并不会让你遇到这个问题,但是如果遇到了,知道解决办法还是很重要的。昨天爬取某网页时,发现提取出的几千行信息中呈现出大量中文乱码现象。话不多说,直接给出博主的解决方案:1.我使用的是requests包,将爬取到的网页使用的cont...

2018-07-25 11:27:54 2987 2

原创 【菜鸟教程笔记】python字典

字典的格式 d={key1:value1,key2:value2}键必须是唯一的,但值可以不唯一。键必须是不可变的:字符串、数字或者元组。一个简单的字典dict={'Alice':'2341','Beth':'9102','Cecil':'3258'}#访问字典的值 dict['Alice']删除字典用del命令:dict={'Name':'Runoob','Age':7,'C...

2018-07-20 18:38:45 332

原创 【菜鸟教程笔记】python输入输出

{0:2d}中,0代表第一个参数, :2d表示以两位整数的方式输出Python提供了input()内置函数从标准输入中读入一行文本。默认的标准输入是键盘。读和写文件open()将会返回一个file对象,语法格式为open(filename,mode)filename:包含了要访问的文件名称的字符串值。mode:决定了打开文件的模式:只读、写入、追加等 不同模...

2018-07-20 16:27:17 1880

原创 【菜鸟教程笔记】Python字符串

Python支持格式化字符串的输出。基本的用法是将一个值插入到有字符串格式符%s的字符串中。例:print("我叫 %s 今年 %d 岁 我喜欢%s" % ('小晴',20,'data analysis'))输出结果为:我叫 小晴 今年 20 岁 我喜欢data analysispython字符串格式化符号:需要记住的:%s代表字符串 %d代表整数 %f代表小数 %e会用...

2018-07-17 23:22:52 402

原创 Python基础(三)数字

数据类型的转换只需要将数据类型作为函数名即可。int(x)将x转换为一个整数;float(x)将x转换为一个浮点数;complex(x)将x转换为一个复数,实数部分为x,虚数部分为0.complex(x,y)将x和y转换为一个复数,实数部分为x,虚数部分为y。在Python的交互模式中,最后被输出的表达式结果被赋值给变量_。 #数学函数【需要加载math包】函数 ...

2018-07-17 16:28:13 164

原创 【菜鸟教程笔记】python基础之元组的使用

修改元组中的元素值是不被允许的,但是可以创建一个新的元组对元组进行连接组合。同样的,元组中的元素值是不被允许删除的,但可以使用del语句来删除整个元组。例:tup=('Google','Runoob',1997,2000);del tup;tuple(seq)可以将列表转换为元组。例:list1=['Google','Taobao','Runoob','Baidu']tup...

2018-07-17 16:09:05 345

原创 【笔记】Python基础(二)运算符介绍

在Python3中,单引号和双引号没有区别。--------------这些都是按位运算符,不要用--------------------Python逻辑运算符☆运算符in  a in list,如果a在序列中则返回True。not in,如果a不在序列中则返回Trueis 与 == 区别:is 用于判断两个变量引用对象是否为同一个, == 用于判断引用变量的值是否相等。...

2018-06-28 16:47:45 120

原创 Python基础(一)可变与不可变数据类型

aaa

2018-06-28 11:08:20 128

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除