- 博客(74)
- 资源 (7)
- 收藏
- 关注
原创 人类社交模拟(python实现)
基本理论 每个个体看作一个点(暂时用二维的点)【多维情况下,每一个维度都可以是对个人某一属性的描述】点的走向作为个人的发展情况社会初期随机发展,一定时间后个人发展受朋友影响前一次的点与后一次的点构成一个线段在某一时间内,人A 人_A 对应的线段 与人B人_B对应的线段相交,则认定两人相识(成为朋友)两点之间的距离作为两个人亲密度的度量,前提是成为朋友在达到一定年龄之后 , 人们会选择与
2015-10-12 10:59:34 3261 5
原创 数据竞赛思路分享:机场客流量的时空分布预测
历时两个月的比赛终于结束了,最终以第32名的成绩告终,在此和大家分享下解决问题的思路。 从初赛到复赛,有走过弯路,也有突然灵光一现的时刻。一路走来,对数据各种把玩,分析了各种可能的情况,尽可能得挖掘数据中潜在的信息来构建更为准确的模型。 本文无法涵盖所有的分析历程,但是会涉及解决问题的主要思路以及部分代码,详细的代码见Github页面 竞赛详细信息参见比赛官方网站1.
2016-11-29 17:47:29 30407 76
原创 Time Serise Analysis[Using R]
Time Serise Analysis[Using R][近期需要用到时间序列分析,顺便整理下笔记以供日后参考]时间序列分析基本流程 时间序列分析在R中的实战分析#### 导入数据# Get Work Directorygetwd()# Import Data From local FileData <- read.csv('~/Documents/data.csv', fill =
2016-09-02 17:13:38 865
原创 Math Block for Markdown [For Typora]
Math Block for MarkdownCode:[Inline Math Formula]This formula $f(x)=x_{1}^{2}+x_{2}^{2}$is an inline formulapreview:This formula f(x)=x21+x22f(x)=x_{1}^{2}+x_{2}^{2} is an inline formulaCode:[Fraction]
2016-08-31 23:14:07 2097
原创 [Enthought Traning] Scientific Computing in Python
Enthought TraningScientific ComputeringData InterpolationNormal Interpolation
2016-08-31 19:53:31 1018 1
原创 第五章 神经网络
第五章 神经网络神经元模型神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应M-P神经元模型思路将生物神经网络中的神经元抽象后得到经典的“M-P神经元模型”。在这个模型中,神经元接收来至n个其他神经元传递过来的输入信号 ,这些信号通过带权重的连接进行传递 ,神经元接收到总到输入值,将与神经元的阈值进行比较 ,然后通过激活函数处理以产生
2016-08-03 18:14:16 947
原创 CS109 Lecture 7
CS109 Lecture 7Data ScrapingSourcesFrom a Web SitesWith An APICopyrights and permissionBe careful and politeGive creditCare about media lawDon’t be evilUseful tags<h1></h1><p></p><br><a href
2016-07-29 17:07:01 707
原创 第四章 决策树
第四章 决策树基本思想决策树是基于树结构来进行决策的,这正是人类在面临决策问题时一种很自然的处理机制一般的,一颗决策树包含一个根节点、若干个内部节点和若干个叶节点;叶节点对应于决策结果,其他的每个节点则对应于一个属性测试;每个节点包含的样本集合根据属性测试的结果被划分到子节点中;根节点包含样本全集。 Wikipedia: A decision tree is a flowchart-like s
2016-07-27 17:31:44 1652
原创 CS109 Lecture 5
CS109 Lecture 5Multi-Dimensional Data VisualizationScatterplot MatricesParallel Coordinates / Flexible Linked AxesPix-Basses Visualizations / Heat MapsDimensionality ReductionExtra Example : LineU
2016-07-26 00:16:38 676
原创 中国美学史中重要问题的初步探索
中国美学史中重要问题的初步探索中国美学史的特点中国美学史材料特别丰富,涉及的方面也特别多诗文理论、绘画理论、戏剧理论、音乐理论、书法理论包含有很多美学思想中国美学史中各门传统艺术相同或相通诗文、绘画、戏剧、音乐、书法、建筑等不但有自己独特的体系,而且相互之间互相影响,互相包含按时间维度往上推 学习中国美术史时,要特别注意考古学和古文字学的成果,它们能提供许多新的资料和新的启发先秦工艺美术和
2016-07-25 20:46:45 1067
原创 论文艺的空灵与充实
论文艺的空灵与充实 初学词求空,空则灵气往来!既成格调,求实,实则精力弥满。 --周济真、善、美哲学求真,道德或宗教求善,介乎两者之间表达我们情绪中的深境和现实人格的和谐是“美”.文艺与宗教、哲学,相辅相成。世界最伟大的建筑雕塑和音乐多是宗教的,第一流的文学作品也是基于伟大的宗教热情 文艺从哲学获得深隽的人生智慧,宇宙观念,使它能执行“人生批判”和“人生启示”的任务空灵 静故
2016-07-25 20:46:03 1057
原创 美从何处寻?
美从何处寻?忘我你的心不是”在”自己的心的过程里,在感情、情绪、思维里找到美;而只是”通过”感觉、情绪、思维找到美。美对于你的心,你的”美感”是客观的对象和存在。你如果要进一步认识她,你可以分析她的结构、形象、组成的各部分,得出”和谐”的规律、”节奏”的规律、表现的内容、丰富的启示,而不必顾到你心的活动,你越能忘掉自我,忘掉你自己的情绪波动,思维起伏,你就越能够“漱涤万物,牢笼百态”,你就会像一面镜
2016-07-25 20:45:40 795
原创 诗(文学)和画的分界
诗(文学)和画的分界《美学散步》序言 散步是自由自在、无拘无束的行动,它的弱点是没有计划,没有系统,看中逻辑统一性的人会轻视它,讨厌他,但是西方建立逻辑学的大师亚里士多德的学派却唤做”散步学派”,可见散步和逻辑并不是绝对不相容的。诗与画的两个例子达芬奇的蒙娜丽莎“巧笑倩兮,美目盼兮”时间和空间角度思考画和诗画:空间里的造型艺术 [一眼全面看到各个部分]诗:时间里表现其境界与行动的文学
2016-07-25 20:44:55 1840
原创 CS109 Lecture 4
CS109 Lecture 4Visualization GoalsCommunicate (Explanatory)Present data and ideasExplain and informProvide evidence and supportInfluence and persuadeAnalyze (Exploratory)Explore the dataAssess a
2016-07-25 20:42:49 613
原创 CS109 Lecture 3
CS109 Lecture 3Visualization GoalPresentationKnow facts about data Task: Communicate resultsExplorationData without hypothesisTask: Generate hypothesis The grestest value of a picture is when it
2016-07-25 20:34:34 457
原创 CS109 Lecture 2
CS109 Lecture 2ConceptsInfographicsDistribution CDF (cumulative distribution function) python import scipy.stats scipy.stats.norm.cdf(2) Histograms Histogram is easier to interpret than CDFNorm
2016-07-25 20:33:10 491
原创 第三章 线性模型
第三章 线性模型基本形式线性模型通常表示如下: f(x)=w1x1+w2x2+...+wnxn+bf(x) = w_1x_1+w_2x_2+...+w_nx_n+b 向量形式如下: f(x)=wTx+bf(x) = w^{T}x+b 线性模型形式简单,却蕴含着机器学习中的重要思想(ww直观表达了各属性在预测中的重要性),许多强大的非线性模型就是在线性模型的基础上通过引入层次结构或高
2016-07-25 20:31:43 1081
原创 第二章 模型评估与选择
第二章 模型评估与选择模型评估方法1. 留出法(hold-out)方法:直接将数据集D划分为两个互斥的集合,训练集合S和测试集合T,在S上训练模型,用T来评估其测试误差注意:训练/测试集的划分要尽可能保持数据分布的一致性,避免因为数据划分过程引入额外的偏差而对最终结果产生影响缺点与改进:单次使用留出法得到的估计往往不够稳定可靠,在使用留出法时,一般要采用若干次随机划分、重复进行实验评估后取平均值作为
2016-07-25 20:28:12 1151
原创 第一章 绪论
第一章 绪论概念机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。在计算机系统中,经验通常以数据的形式存在 假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习基本术语数据集 / 属性或特征/特征向量/维数/标签/分类/回归/聚类/监督学习/无监督学习/泛化归纳偏好任何一个有效的机器学习算
2016-07-25 20:24:05 545
原创 天池竞赛-淘宝穿衣搭配(数据预处理部分)
赛题简介淘宝网是中国深受欢迎的网购零售平台,其中服饰鞋包行业占据市场的绝大部分份额,围绕着淘宝诞生了一大批优秀的服饰鞋包导购类的产品。穿衣搭配是服饰鞋包导购中非常重要的课题,它所延伸出的技术、算法能广泛应用到大数据营销几乎所有场景中,如搜索、推荐和营销服务。淘宝穿衣搭配算法竞赛将为参赛者提供搭配专家和达人生成的搭配组合数据,百万级别的淘宝商品的文本和图像数据,同时还将提供用户的脱敏行为数据。期待参赛
2015-10-23 01:16:53 5592 9
原创 poker 游戏实现 (python)
今天我们来制作poker 这个牌类游戏understanding(理解问题) Start with a vague understanding that you refine into a problem.specify (明确问题) Specify how this problem can be made amenable to being coded.design (设计程序) C
2015-10-13 15:47:00 4914 1
原创 SQL 基础
常用代码(选择全部)SELECT * from celebs;(创建表格)CREATE TABLE celebs (id INTEGER, name TEXT, age INTEGER);(插入行数据)INSERT INTO celebs (id, name, age) VALUES (1, 'Justin Bieber', 21);(选择某列)SELECT name FROM celebs;
2015-10-03 22:34:25 25156
原创 最大流问题 (使用遗传算法解决 --Python 实现)
最大流问题 (使用遗传算法解决 Python 实现)Generate_matrixdef Generate_matrix(x,y): import numpy as np import random return np.ceil(np.array([random.random()*10 for i in range(x*y)]).reshape(x,y))Max_road
2015-09-25 15:02:24 4336 1
原创 (文本表示及挖掘)Representing and Mining Text
主要内容:1. Text data2. Bag of words3. N-gram sequence 4. Text mining 案例(一) text data文本数据(Text data )的特点Unstructured data (非结构化数据)Linguistic structure(语言结构)——NLP (自然语言处理)文本数据的缺陷(Text data’s problem
2015-09-16 22:03:37 1049
原创 (可视化模型表现)Visualizing Model Performance
Stakeholders outside of the data science team may have little patience for details, and will often want a higher-level, more intuitive view of model performance. It is important for the data sc
2015-09-08 13:18:24 980
原创 (决策分析思考)Decision Analytic Thinking
主要内容:准确度评判标准的缺陷 The Confusion Matrix 非均衡类别的问题 Data-Analytic Thinking 分析框架:期望值 模型评判的基准(Baseline) ——————————————————————————————————————————————— (一)准确度评判标准的缺陷 首先需要肯定的是准确度(plain accu
2015-09-05 17:16:57 1214
原创 (模型选取)Fitting a Model to Data
我们常常需要将数值变量正规化(normalize) 线性分类器直观的理解是属性值的加权和(weightedsum) 模型比较Support Vector Machine Linearregressionlogisticsregression共同点:都是拟合一个线性模型不同点:使用不同的目标函数(CostFunction /LossFuncti
2015-09-01 14:40:50 966
原创 (相似度、邻近及聚类)Similarity, Neighbors, and Clusters
主要内容:相似度(Similarity) (can be used for classification and regression) 距离函数(Distance Function) Nearest - Neighbor Hierarchical Clustering K-Mean ——————————————————————————————————(一)相似度相似度是很多数
2015-09-01 14:18:08 12284
原创 (过拟合及其防治)Overfitting and Its Avoidance
Chapter 5.总结2015年8月27日19:05主要内容:Overfitting(问题)判断和防止overfitting 的方式 —————————————————————————————————— 过度拟合的模型往往不能进行一般化推广(generalization) 拟合问题需要在两个方面进行权衡 需
2015-08-28 16:22:20 1391
Mathematical reasoning :patterns, problems, conjectures, and proofs 2010,数学推理:模式、问题、猜想和证明2010英文版
2014-06-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人