ahnstgliq07878636-CSDN博客

转载 numpy.sort

import numpy as np>>> list1 = [[4,3,2],[2,1,4]]>>> array=np.array(list1) >>> arrayarray([[4, 3, 2], [2, 1, 4]])>>> array.sort(axis=1) &...

2019-04-10 11:18:00 133

转载 numpy.random

numpy.random.RandomState()指定种子值（指定种子值是为了使同样的条件下每次产生的随机数一样，避免程序调试时由随机数不同而引起的问题）如不设置种子值时,np.random.randint(100)可能产生0-100内的任意整数，且每次重新运行产生的数字都会在0-100 之间变动而设置种子值后,np.random.RandomState(0).randi...

2019-04-10 10:48:00 144

转载报错错误问题解决

sys:1: DtypeWarning: Columns (2,4,5) have mixed types. Specify dtype option on import or set low_memory=Falseimport pandas as pdpd = pd.read_csv(Your_path, low_memory=False)转载于:https...

2019-03-19 15:54:00 413

转载 DataConversionWarning: A column-vector y was passed when a 1d array was expected. 问题解决和数据平衡问题...

在用SMOTE算法模块进行过采样（oversampling）时，pandas导入训练集合特征和label。from imblearn.over_sampling import SMOTE # 导入SMOTE算法模块# 处理不平衡数据sm = SMOTE(random_state=122) # 处理过采样的方法X, y = sm.fit_sample(X,...

2019-03-19 13:51:00 806

转载 Y出现ravel的问题解决

出现：/Users/wangchuang/anaconda3/lib/python3.6/site-packages/sklearn/utils/validation.py:547: DataConversionWarning: A column-vector y was passed when a 1d array was expected. Please change the s...

2019-03-18 16:58:00 982

转载 k-mean(随机数质心生成）

random.uniform()函数def uniform(low=0.0, high=1.0, size=None)产生的数据为均匀分布，数据值区间为[low,high)，size为其产生数据的尺寸。low：float，可选，默认值0；high：float，可选，默认1；官网上写的是必填，实测可以省略；size：int，或者int元祖，可选。如果为（m, n, ...

2019-03-08 14:15:00 467

转载 k-mean(欧氏距离计算）

import numpy as np方法一def Distance(vec1,vec2): dist = np.sqrt(np.sum(np.square(vec1 - vec2))) return dist方法二def distEclud(vecl1,vecl2): dist = np.sqrt(np.sum(np.power(vecl...

2019-03-08 10:41:00 973

转载随机森林--调参

模型调参第一步是要找准目标：我们要做什么？一般来说，这个目标是提升某个模型评估指标，比如对于随机森林来说，我们想要提升的是模型在未知数据上的准确率（由score或oob_score_来衡量）。找准了这个目标，我们就需要思考：模型在未知数据上的准确率受什么因素影响？在机器学习中，我们用来衡量模型在未知数据上的准确率的指标，叫做泛化误差（Genelization error...

2019-03-06 15:29:00 224

转载 case when函数和 cast函数

一、case when需求：按薪资排序高中低select empno,ename,case when sal<1000 then 'low'when sal>=1000 and sal <3000 then 'middle'else 'high'end as new_salfrom emp;需求：将emp表的...

2019-03-04 11:18:00 574

转载 python读取csv数据（添加列名，指定分隔方式）

现有CSV/EXCEL文件一个，为简化期间，为一个3x3的数据文件，内容如下：1,2,32,1,33,2,1用pandas.read读取以后，第一行自动被识别为columns，造成数据出错12302131321有没有什么命令可以添加自定义的columns的名字，比如我想命名为A,B,C三列，该怎么操作呢？pd.read_csv(file,heade...

2019-02-28 11:40:00 2933

转载 loc_survived

1. loc函数loc为 Selection by Label函数，简单的来讲，即为按标签取数据，标签是什么，就是上面的'2013-01-01' ~'2013-01-06', 'A'~'D'　　　　　　　　　　A B C D2013-01-01 0.469112 -0.282863 -1.509059 -1.13563...

2019-02-25 10:24:00 186

转载数据预处理

对于DataFrame的一些操作DataFrame.drop()inplace=False，默认该删除操作不改变原数据，而是返回一个执行删除操作后的新dataframe；参数 inplace=True 则会直接在原数据上进行删除操作，删除后就回不来了axis=0，指删除index，因此删除columns时要指定axis=1；data = pd.read_csv(路径)data....

2019-02-22 13:58:00 238

转载 hadoop 指令

1、appendToFile　　　　功能：将一个或多个源文件系统的内容追加至目标文件系统　　　　使用方法：hadoop fs -appendToFile 源文件1，源文件2... 目标文件　　　　　 hadoop fs -appendToFile /flume/web_output/part-r-00000 /flume/app_ou...

2019-02-20 13:15:00 237

转载 pd.concat

import numpy as npimport pandas as pddf1=pd.DataFrame(np.ones((3,4))*0,columns=['a','b','c','d'])df2=pd.DataFrame(np.ones((3,4))*1,columns=['a','b','c','d'])df3=pd.DataFrame(np.ones((3,...

2019-02-15 16:32:00 228

转载 DataFrame

import pandas as pddata = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],'year': [2000, 2001, 2002, 2001, 2002],'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}# 建立DataFrame对象frame1 = pd.DataF...

2019-02-15 16:22:00 71

转载 SQL左连接

用了这么久的左连接，真是蠢死了。本次知识总结为一对多的理解，进行左连接，很明显是一对多的情况上结果：会把多的全都显示出来转载于:https://www.cnblogs.com/zhange000/p/10237491.html...

2019-01-08 10:30:00 100

转载 mysql mysql之把查询的结果保存到新表(小知识点）

有时我们要把查询的结果保存到新表里，创建新表，查询，插入显得十分麻烦。其实直接可以搞定。例如把表2的查询结果插入表1：如果表存在：insert into tab1 select * from tab2如果表不存在：create table tab1 as select * from tab2转载于:https://www.cnblogs.com/...

2018-12-08 16:28:00 2569

转载啦啦啦啦 mysql 授权

　　作为小白，自己下载了MySQL数据库，然后长期自己存数据，都是独自在做，完全没想到连接这个事。最近，工作中给同事安装数据库，才突然想到可以让别人链接自己的，哎，真是个傻子。我的傻除了这个以外，还有。。。。。我下载了navicate for mysql ,一直痴迷在怎么用navicate去连接别人的库，百度啊，论坛啊，看了半天也没解决。你们说我傻不傻。。。。。。　　突然灵光一闪...

2018-12-08 11:32:00 107

转载 hive中时间日期函数的使用

to_date：日期时间转日期函数select to_date('2015-04-02 13:34:12');输出：2015-04-02from_unixtime：转化unix时间戳到当前时区的时间格式select from_unixtime(1323308943,’yyyyMMdd’);输出：20111208unix_timestamp：获取当前unix时间戳select un...

2018-11-22 16:44:00 72

转载关于mat函数

我们看到一开始随机生成的数组与使用mat函数之后的类型是发生了变化的，尽管他们显示的东西没有什么区别，但是实质上，他们的类型是不同的。用mat函数转换为矩阵之后可以才进行一些线性代数的操作。x = random.rand(3, 3)print(x)print(type(x))y = mat(x)print(type(y))print(y)[[ ...

2018-11-12 10:39:00 345

转载 strip 和split

1 Python strip()函数介绍函数原型声明：s为字符串，m为要删除的字符序列s.strip(m) 删除s字符串中开头、结尾处，位于 m删除序列的字符s.lstrip(m) 删除s字符串中开头处，位于 m删除序列的字符s.rstrip(m) 删除s字符串中结尾处，位于 m删除序列的字符注意：（1）当m为空时，默认删除空白...

2018-10-17 10:04:00 112

转载一篇关于登陆的cookie和session

详见 https://blog.csdn.net/dayun555/article/details/79391817Beautifulsoup https://www.cnblogs.com/hester/p/5495875.html转载于:https://www.cnblogs.com/zhange000/p/9314381.html...

2018-07-15 18:10:00 72

转载 extend 和append

>>> A = ['q', 'w', 'e', 'r']>>> A.extend(['t', 'y'])>>> A['q', 'w', 'e', 'r', 't', 'y']>>>len(A)>>> B = ['q', 'w', 'e', 'r']>>&g...

2018-07-14 14:32:00 85

转载 scrapy

第3章学习笔记：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛，可以用于数据挖掘、监测和自...

2018-07-13 11:56:00 116

转载 join函数

seq2 = "hello good boy doiido"print (':'.join(seq2))# h:e:l:l:o: :g:o:o:d: :b:o:y: :d:o:i:i:d:o#对元组进行操作seq3 = ('hello','good','boy','doiido')print (':'.join(seq3))# hello:good:boy:doiido#对字典进行操作s...

2018-07-12 11:49:00 127

转载索引

索引作用约束+加速查找普通索引：加速查找主键索引：加速查找约束不能为空+不能重复唯一索引：加速查找约束不能重复联合索引（多列）：联合主键索引联合唯一索引索引的工作原理（hash和btree)答：索引的原理大致概括为以空间换时间，数据库在未添加索引的时候进行查询默认的是进行全量搜索，也就是进行全局扫描，有多少条数据就要进行多少...

2018-07-10 14:51:00 76

转载装饰器回顾

装饰器本质就是一个闭包，它可以在不修改原函数及其调用方式下对原函数进行扩展对于修改是封闭的，对扩展是开放的装饰器函数是一个工厂型函数，接受一个函数作为参数，返回一个新函数，提取大量重复代码，提高代码的重用性def func(fun): def inner(*args,**kwargs): ret = fun(*args,**kwargs) ...

2018-07-09 16:26:00 95

转载装饰器进阶

# 缓存页面示例import osfrom urllib.request import urlopen# 先查看文件里是否有这个网页的内容，内部函数调用调用外部函数的变量，此时变量存在一个文件中，# 如果没有，就把它写入文件，等第二次进行访问的时候，先进行文件判断，如果存在就直接读，def cache(func): def inner(*args,**kwargs): ...

2018-07-09 14:05:00 89

转载装饰器示例

接收的时候是聚合调用的时候打散def wrapper(func):　　@wraps(func) def inner(*args,**kwargs): print('在装饰器的函数执行之前') ret =func(*args,**kwargs) print('在之后') return ret ...

2018-07-06 17:51:00 61

转载爬虫day1

常用模块 requests BeautifulSoup1 汽车之家爬虫练习import requestsfrom bs4 import BeautifulSoupret = requests.get(url="https://www.autohome.com.cn/news/")ret.encoding = ret.apparent_encoding# pr...

2018-07-03 18:50:00 62

转载初识闭包

首先，闭包是一个嵌套函数，内部函数对外部函数变量进行调用，外部函数的返回值是内部函数名内部函数包含对外部作用域而非全剧作用域名字的引用，该内部函数称为闭包函数def func(): a = 1 def inner(): print(a)　　return innerret = func()ret()#1闭包可以实现先将一个参数...

2018-06-13 17:19:00 83

转载文件读写

f = open('文件路径', '模式')f=open('hello',“r”)data=f.read()print(data)f.close()"r"代表只读# read 只能读# f=open('hello','r')# 打开文件创建对象# data=f.read()# 对度读取的数据进行赋值# f.close()# 最后打印# print(data)f=...

2018-05-30 16:40:00 113

转载字符串str

class str(basestring): """ str(object='') -> string Return a nice string representation of the object. If the argument is a string, the return value is the same obj...

2018-05-06 12:31:00 78

ahnstgliq07878636的博客