- 博客(25)
- 收藏
- 关注
原创 『数据挖掘』scikit-learn包的进阶学习笔记——第二章:线性回归
代码部分参考:2-linear-regression# coding:utf-8__author__ = "LCG22_2016_05_30"import matplotlib.pyplot as pltfrom matplotlib.font_manager import FontProperties# font = FontProperties(fname=r"C:\Users
2016-05-30 18:56:04 606
原创 python学习中存在的问题
1、对内置函数仍然不够熟悉2、对装饰器仍然不能够熟练运用3、不懂或不够明白的题目:1、>>> fpath, fname = os.path.__split__ ("C:\\Users\\test.txt")>>> print fpathC:\Users>>> print fnametest.txt2、判断"C:\User\test
2016-05-30 15:38:49 1159
原创 一些自编自用的函数_不断更新不断改进
1、读取文件import pandas as pdimport loggingimport osdef get_data_pd(path): if path.find(".xlsx") != -1: data = pd.read_excel(path, "Sheet1") if path.find(".csv") != -1: data
2016-05-30 10:52:52 346
原创 『数据挖掘』scikit-learn包的初级学习
代码来源:【机器学习实验】scikit-learn的主要模块和基本使用# coding:utf-8# creat_time = "2016-05-26"# 加载数据(Data Loading)import numpy as npimport urllib# 从 UCI 机器学习数据仓库中下载数据url = "http://archive.ics.uci.edu/ml/machi
2016-05-26 23:27:45 1332
原创 『Python学习』lettcode题目答案python版
注:本文部分参考以下文章LeetCode题解整理版(二)1、将abc def形式的字符串翻转成def abc,并且去掉多余的空格class Solution: def reverseWords(self, s): return "".join([word[::-1] for word in s[::-1].split()]) sol
2016-05-26 14:52:46 1490
原创 『机器学习——周志华』学习笔记——第二章:模型评估与选择
一、经验误差与过拟合1、错误率:分类错误的样本数占样本总数的比例2、精度 = 1 - 错误率3、实际预测输出与样本的真实输出之间的差异被称为“误差”(error);在训练集上的误差被称为“训练误差”(training error)或“经验误差”(empirical error);在新样本上的误差被称为“泛化误差”(generalization error)4、过拟合:当学习器把训练
2016-05-25 23:31:29 2034
原创 『Python思考』利用字典来保存程序中的文件地址(路径名)
促使我产生想要将程序中的文件地址集中到一起的想法,是由于目前的一项工作中需要读取许多个不同的文件,同时也需要保存将结果保存到不同的文件中,这导致了两个问题: 一是程序中的文件地址太多,不好看。不好看又分为两种情况,一是文件地址太长、二是文件地址分散在代码各处 二是程序中的文件地址太多,当需要修改某个或全部地址的时候,很麻烦且容易漏改 而在 python 内置的各种数据
2016-05-25 11:30:41 2071
原创 『机器学习——周志华』学习笔记——第一章
1、机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。同时 Mitchell(1997) 给出了一个更形式化的定义:假设用 P 来评估计算机程序在某任务类 T 上的性能,若一个程序通过利用经验 E 在 T 中任务上获得了性能改善,则我们就说关于 T 和 P,该程序对 E 进行了学习。2、机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“机器学习算法”。
2016-05-24 23:37:56 3240
原创 『Python学习』xlrd库的使用
教程来源 python操作Excel读写1、读取数据def get_data(path): data = xlrd.open_workbook(path) return data2、获取某个表old_rank_propor_table1 = old_rank_propor.sheets()[0]3、获取行数old_rank_propor_table1.n
2016-05-23 10:17:41 597
原创 一些想要或读过的书及个人评价
1、机器学习 周志华个人评价: 知乎上的评价很好, 被称为是适合本科生看的机器学习教材。内容比较多, 深度比较浅, 数学知识不是很深。 唯一的遗憾是没有代码。
2016-05-18 22:09:52 663
原创 编程过程中遇到的python问题与解决方法_来自网络
1、python操作mysql中文显示乱码的解决方法简介: 已解决http://www.jb51.net/article/56086.htm2、自己编程中遇到的Python错误和解决方法汇总整理简介: 未看http://www.jb51.net/article/67161.htm
2016-05-16 17:27:28 1186
原创 『阿里大数据竞赛』音乐流行趋势预测_不断更新
# 本文使用的语言是Python, 下面不再说明# 本文禁止盈利性转载一、数据预处理 1、读取数据 1.1 原始数据、测试数据与实际数据 什么叫原始数据?为什么要保留一份原始数据? 在读取数据之前我们要先保留一份原始数据, 并且在随后的处理的过程中不要对原始数据做任何操作。这样做的目的是为了避免在之后的过程中, 我们对数据进行了错误的修改,
2016-05-14 14:04:40 4934 2
原创 杂记_比赛的一些记录
目前遇到的问题:1、数据太多, excel表无法完全加载2、还没有确定使用什么算法对赛题的思考和分析:1、是什么原因影响一个歌手的新歌的点击数量?注: 以下原因不按权重大小来排序①歌手本身的名气: 因为歌手出名则意味着他有很多的粉丝, 而粉丝相比非粉丝会更容易接触到该歌手的歌曲②歌曲本身的质量: 人们更愿意分享好东西③音乐平台本身的推荐④
2016-05-12 23:41:01 787
原创 『Python学习』pandas进阶学习笔记
1、# 输出系统当前时间now = datetime.now()print nowprint now.dayprint now.weekday() # 有疑问 为何比真实时间晚一天?是因为时区问题?2、from datetime import date, timeprint time(3, 24) # 3时24分3、"strptime" 方法可以根据需求形式解析用
2016-05-12 15:05:14 5099
原创 『Scrapy学习』基础知识
1、有些Scrapy命令(比如 crawl)要求必须在Scrapy项目中运行。 您可以通过下边的 commands reference 来了解哪些命令需要在项目中运行,哪些不用。2、Scrapy提供了两种类型的命令。一种必须在Scrapy项目中运行(针对项目(Project-specific)的命令),另外一种则不需要(全局命令)。全局命令:startproject
2016-05-12 14:10:42 514
原创 『Python学习』海龟法则学习
1、本文代码来自:【量化小讲堂 - Python、Pandas系列】数据告诉你:惊人的海龟交易法则2、import pandas as pd# 导入上证指数的原始数据index_data = pd.read_csv(r"C:\Users\LCG22\Desktop\work\learn\Python\PythonLearn\DataSet\all_trading_data\index
2016-05-10 17:51:01 6709 1
原创 『Python』os库练习题及答案
1、创建单级目录2、删除上述单级目录3、创建多级目录4、删除上述多级目录5、创建文件6、重命名5中的文件7、修改5中的文件后缀名8、复制5中的文件并记为新文件名
2016-05-09 23:03:30 1595
原创 『Python标准库』学习笔记
1、关于apply的用法, 如果要使用字典参数, 而又元组为空的话, 元组也不能省略python apply()函数2、使用 __import__ 函数获得特定函数实现延迟( = = 虽然觉得并没有什么用, 大概好处是不用专门导入一个库?def getfunctionbyname(module_name, function_name): module =
2016-05-06 16:30:16 487
原创 python的学习笔记
1、无论是 for、while 还是 if 中的变量都是存在于上下文中的, 即如果循环或条件变量跟前面的某个变量同名的话, 那么将会将那个变量重新赋值。 所以循环或条件变量尽量不要取跟前面的变量相同的变量名;2、> 在python中不可以用, 会报语法错误;3、当n较小时生成器表达式跟列表推导式效率差不多, 但当n较大时, 则会比较明显;4、使用zip()函数一次处理两个或多个列表
2016-05-05 14:40:30 869
原创 一些关于如何写更好的代码的建议
注:本文内容主要是博主在网上、书上以及自己在写代码过程中的感悟1、过早的优化是万恶之源2、如果程序需要管理员权限, 那么最好是修改程序而不是赋予管理员权限3、
2016-05-05 13:38:32 470
原创 『Python高级编程』学习笔记之二: 第十章——编写项目文档
7条适用任何情况的规则:1、分两步编写: 先聚焦于思想, 然后审查和修正文档第一步先把思想写下来, 第二步时才重新阅读整个文本, 并对其进行润色 2、以读者为目标: 谁将读这个文档?明确你的读者有哪些, 并应用一个简单的规则: 每个文档应该只有一类读者。在文档中提供一些简单那的介绍性文字, 说明文档的相关内容, 指导读者找到合适的部分3、使用简单的风格: 保持简单明了, 使用良
2016-05-03 16:07:05 512
原创 『Python』序列学习总结之六——如何命名规范的变量名
本内容主要参考《Python高级编程》以及自己的一些实践、公司的命名规范。 对于那些认为随便取个变量名也无所谓、只要自己看得懂的人, 请无视本文章。本文章的核心观点是: 代码应该便于阅读和理解、 好的代码本身就是对代码最好的注释。#所有的都以PEP8为准 1、恒定量(常量)使用全大写与下划线 2、私有变量使用前导下划线和小写, 如: _message
2016-05-03 13:23:07 3918
原创 『Python高级编程』学习笔记之一: 第四章——选择好的名称
1、对于值不会发生改变的全局变量, 使用大写和一个下划线。 它告诉开发人员指定的变量代表一个恒定量。如: PRICE_2、 左移运算的两个操作数应为整数类型。第一个操作数是要进行移位操作的数,第二个操作数指定第一个操作数移动的位数。如果第二个操作数等于0则不发生任何移位。应用举例:一,问:计算表达式14 答:表达式14 二,问: 计算表达式8 >> 2的值。答:表达式8
2016-05-01 21:02:20 754
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人