自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 浅拷贝和深拷贝

引子:今天做题目时,碰到个东西感觉有意思:有一个pandas dataframe格式的数据,第一列是id号,需要去掉;但是去掉之前你不知道之后要不要用它,所以先保存一下:ID = df['ID']之前,老师讲过,像这样保存内存地址必须先给一个变量名,要不然会被内存清除。比如:def Foo(): print("Good")Foo #这个是看函数的内存地址Foo() #运行之后就被...

2018-04-28 21:18:53 496

原创 字符串处理和循环控制

# -*- coding: utf-8 -*-import strings = 'abc's[0] = 'x' #string不支持元素操作#去除空格s = ' abcd efg'print(s.strip()) #去掉所有空格,返回的是新的字符串,因为字符串不能修改print(s.lstrip()) #去掉左边空格print(s.rstrip()) #去掉右边空格pr...

2018-04-28 10:57:01 527

转载 PEP8编码规范

转载自豆瓣:PEP8 Python 编码规范一 代码编排1 缩进。4个空格的缩进(编辑器都可以完成此功能),不使用Tap,更不能混合使用Tap和空格。2 每行最大长度79,换行可以使用反斜杠,最好使用圆括号。换行点要在操作符的后边敲回车。3 类和top-level函数定义之间空两行;类中的方法定义之间空一行;函数内逻辑无关段落之间空一行;其他地方尽量不要再空行。二 文档编排1 模块内容的顺序:模块...

2018-04-28 10:33:48 135

原创 《人工智能工程师》逻辑回归 LogisticRegression

在逻辑回归里,不去拟合样本分布,而是确定决策边界。sigmoid函数sig = 1.0/(1 + np.exp(-x))为什么需要这个函数?这个函数有个特点,当x<0时,0<y<0.5;x=0时,y=0.5;x>0时,1>y>0.5。那么,假设我想对数据做二分类,首先从数据讲起。1.数据是m行n列的数据(xij, i=1..m, j=1..n),那么,样本1是向...

2018-04-28 00:25:26 161

原创 Kaggle(一):Titanic

虽然理论知识学了很多,但是实际操作还没有积累,现在每天积累一题。---------------------------不积跬步无以至千里---------------------------------------Titanic的数据分为test.csv和train.csv,每一行row代表一个乘客的详细信息,每一列column代表一个feature,最后一列是存活信息,1代表存活,0代表没存活。...

2018-04-25 23:39:16 229

原创 机器学习之特征工程

什么是特征工程特征:从数据中抽取出来对结果预测有用的信息。那么,现在有很多的数据,并不是每一个数据都有用,需要抽取。特征工程:使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好作用的过程。数据采集采集那些对预测结果有帮助的信息。能影响结果的,和结果有关联的,有表面的也有内部的,需要去辨别。数据清洗去掉脏数据。这个过程很花时间,但是能帮助你对业务的理解变得透彻...

2018-04-25 11:10:28 372

原创 socket

一:客户端/服务器架构即sc架构1.硬件c/s架构  2.软件c/s架构二:计算机网络架构 (在上一篇博客中有)https://blog.csdn.net/gaoyishu91/article/details/80059455三:socket为什么有socket,因为在应用层中软件产生的数据,必须打包好,通过tcp传输给网络层,那么数据打包必须遵循tcp格式才行。socket可以给一个工具去简单的...

2018-04-24 16:11:55 127

原创 网络通信原理

网络协议1.互联网的本质就是一系列的网络协议。2.互联网协议按照功能不同分为osi七层:应,表,会,传,网,数,物。五层:应,传,网,数,物。层的作用1.物理层:基于电器特性发送高低电压,高压对应数字1,低压对应数字0.2.数据链路层:以太网协议 (网卡)规定:一组电信号构成一个数据包,叫做 帧。每一个数据帧分成:头head和数据data两个部分head是18个字节 发送者6,接收者6,数据类型6...

2018-04-24 10:42:03 2160

原创 反射等一系列内置函数

hasattr(obj,"name")getattr(obj,"name",default = xx)setattr(obj,"name", '')delattr(obj,'name')在文件中用反射def sa_hi(): print('Nihao a')isinstance(obj,cls) #判断一个对象是否是一个类的对象,也可以判断是否是父类的,反应族谱关...

2018-04-22 16:35:34 167

原创 授权

import timeclass Open: def __init__(self,filename,mode = 'r', encoding = 'utf-8'): self.file = open(filename,mode,encoding=encoding) #得到一个文件句柄 self.mode = mode self.encod...

2018-04-22 00:08:31 167

原创 getattr,setattr,defattr,__getattr__,__setattr__,__delattr__,反射,继承,派生

#程序可以访问检测修改它本身状态的能力。# 四个函数 参数均是 前面func名称,后面是字符串# hasattr() object,name 判断object中有没有一个name字符串对应的方法或者属性# getattr() 获得func的属性字典(__dict__)中key对应的值,数据属性就是值,函数属性就是地址。= func.name# setattr() 设置,和改字典一样。...

2018-04-21 23:22:50 179

原创 多态,继承,封装

多态:对象如何通过他们共同的属性和动作来操作和访问,而不用考虑他们的类,反应在执行时候。python中一切皆对象,不同的对象调用相同的方法,获得结果。比如len可以计算列表长度,字符串长度。len(str1)-----> str1.__len__()len(list)----->list.__len__()所以,都是调用对象的方法,是面向对象。那么,他们调用的都是相同的属性,没考虑他们...

2018-04-21 11:13:46 117

原创 特征工程和数据预处理常用工具和方法

import pandas as pdtrain_data = pd.read_csv("train.csv")train_data.shape #应该是给了property(891, 12)train_data.describe()train_data["Age"].fillna(value=train_data["Age"].mean())terfrom sklea...

2018-04-20 00:50:35 2409

原创 面向对象编程(复习用)

三大编程范式:面向过程编程,面向对象编程,函数式编程。类:把一类事物的相同特征和动作整合到一起就是类。抽象概念。对象:就是基于类而创建的一个具体事物。实例化:由类生产对象的过程就是实例化。比如,类定义了一些特征和动作,那么98K是type 狙击枪,feature杀伤力大,装八倍镜,m24也具有这些特征,除了name不同。就可以将栓狙的共性结合在一起,特征也结合在一起。把他们全部包起来装好。所以,面...

2018-04-19 12:49:31 201

原创 configparser的使用去操作配置文件

import configparser #写配置文件config = configparser.ConfigParser() #有了一个空字典 config = {}config["DEFAULT"] = {"yishu":"27"} #defalut操作和字典一样,给键值对config["bitcome"] = {} #如果想创建新的配置类型,你要给它名字,先创建一个新的...

2018-04-18 17:09:38 1485

原创 logging模块

import logginglogging.basicConfig( level=logging.DEBUG, #从哪个级别开始 DEBUG级别最小,所以排他上面的全部打印 filename="logger.log", #默认显示在屏幕(stream),可以输入到这个文件中 filemode = "w", #默认是追加写在log中,w设定成清楚原数据写人新数据 ...

2018-04-18 15:04:37 99

原创 正则表达式

正则表达式可以用于模糊匹配,找东西。import rere.findall("yishu","gasghether")十几个元字符,六个匹配. 通配符 可以代替任意一个字符,除了/nr = re.findall("y..u","gasyghuether")print(r)^ 以什么开头r =re.findall("g..y","gasyghuyther")print(r)

2018-04-17 21:34:45 171

原创 XML模块

json和pickle跳过,直接xml。先看xml的数据类型:<?xml version="1.0" encoding="UTF-8"?><note> #标签 <to>Tove</to> #闭合标签 还有自闭合标签 <from>Jani</from> <heading

2018-04-17 17:05:55 218

原创 基本的模块介绍

time模块 根据目的不同,转换时间的显示形式import datetimeprint(datetime.datetime.now()) #2018-04-18 09:08:28.282755#时间戳 是一个秒数,计算print(time.time()) #float表达式#结构化时间 当地时间t = time.localtime() #拿到时间对象print(t.tm_year)...

2018-04-17 10:13:55 191

原创 特征工程初步学习

基本数据处理1.缺失值的填充df_train['Age'].fillna(value = df_train['Age'].mean()) #df_train数据包含关键字age的column,中间的缺失值用该列平均值填充。用sklearn的包from sklearn.preprocessing import Imputerhelp(Imputer)Imputation transformer ...

2018-04-17 00:55:23 156

原创 python相关知识点整理四(自己复习用)

filter, map, reduce几句话就能讲明白filter(function, iterable) 作用的是可迭代对象,list / tuple / dict / set / strlists = ['11班01','11班02','12班02','13班02'] #可迭代对象f = filter(lambda x: x.startswith('11班'),lists) #遍历li...

2018-04-16 23:44:25 136

原创 python相关知识点整理三(自己复习用)

生成器,装饰器,迭代器什么叫递归?什么叫迭代?迭代是一个重复的过程,每次重复即一次迭代,并且每次迭代的结果都是下一次迭代的初始值迭代器协议对象必须提供一个next方法,执行该方法有2个结果,要么返回迭代中的下一项;要么引起一个StuopIteration异常,以终止迭代。(只能往后走不能往前退)可迭代对象实现了迭代器协议的对象。(内部有__iter__方法)for循环本质是循环所有对象,全部使用迭...

2018-04-16 23:00:55 163

原创 python相关知识点整理二(自己复习用)

字典骚操作l = [11,22,33,44,55,66,77,88,99,90]result = {}for item in l: if item < 66: #阅读到11时,小于66 if "k1" not in result: #判断键值在不在字典中,不在 result['k1'] = [item, ] #创建一个键值'...

2018-04-16 22:54:12 202

原创 python相关知识点整理一(自己复习用)

List操作注意事项list = [1,'str',{'name':'yishu'}]for i list: print(i)list.append() 在后面添加list.clear() 清除list.count() 计算个数list.index('str') = 1 获取str的索引位置list.insert(0,99) 在0位置插入99,后面向后移位v = list.po...

2018-04-16 21:55:12 187

原创 module 模块 和 包

模块(module)模块(module) 的标准定义: if you want to write a somewhat longer program, you are better off using a text editor to prepare the input for the interpreter and running it with that file as input inste...

2018-04-16 17:49:12 312

原创 第四课 kaggle自然语言处理

NLTK自然语言处理库,自带语料库,词性分类库。要记得安装语料库。import nltknltk.download()Tokenize 拆句子,拆小英文分词import nltksentence = 'hello world'tokens = nltk.word_tokenize(sentence)tokens社交语言的分词 表情符号需要用正则表达式去匹配中文分词 启发式Heuristic...

2018-04-14 17:30:48 1409

原创 装饰器

装饰器的作用在于,如果你想重复写一些修饰性的代码在不同的主代码中,为了避免重复性的写入这些代码,可以用装饰器。把函数包装起来。def using_logging(func): def wrapper(): print("good,using this first") func() #这里是执行func的命令 print("good,usi...

2018-04-11 22:24:35 89

原创 python面向对象编程

用面向对象的方法进行数据的处理昨天学习了面向对象的基础,尝试去用该思想去预处理机器学习的数据。基本思路是往函数中输入数据文件名称和分配的比例ratio,输出测试集,测试标签,训练集,训练标签。from numpy import * from sklearn import svm #库不能写在函数中。class FunSVm(): #没参数 def __init__(self...

2018-04-11 20:45:28 211

原创 机器学习实战-kNN章节

这是第一章的内容我基本会每天不断的学习和更新,希望大家能够和我讨论,指出我的不足和问题。本章内容主要是说用kNN去做判断。kNN是计算训练样本和测试样本相同属性之间的值的欧几里得距离的远近,从而判断应给该测试样本什么标签。代码中涉及基本的读入数据,转换数据成numpy格式,算法判断。都是很基本的。from numpy import *import operatordef createData...

2018-04-07 16:29:47 128

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除