Data Science
文章平均质量分 65
ZJun310
这个作者很懒,什么都没留下…
展开
-
SQL 基础
常用代码(选择全部)SELECT * from celebs;(创建表格)CREATE TABLE celebs (id INTEGER, name TEXT, age INTEGER);(插入行数据)INSERT INTO celebs (id, name, age) VALUES (1, 'Justin Bieber', 21);(选择某列)SELECT name FROM celebs;原创 2015-10-03 22:34:25 · 25210 阅读 · 0 评论 -
CS109 Lecture 7
CS109 Lecture 7Data ScrapingSourcesFrom a Web SitesWith An APICopyrights and permissionBe careful and politeGive creditCare about media lawDon’t be evilUseful tags<h1></h1><p></p><br><a href原创 2016-07-29 17:07:01 · 741 阅读 · 0 评论 -
CS109 Lecture 5
CS109 Lecture 5Multi-Dimensional Data VisualizationScatterplot MatricesParallel Coordinates / Flexible Linked AxesPix-Basses Visualizations / Heat MapsDimensionality ReductionExtra Example : LineU原创 2016-07-26 00:16:38 · 701 阅读 · 0 评论 -
CS109 Lecture 4
CS109 Lecture 4Visualization GoalsCommunicate (Explanatory)Present data and ideasExplain and informProvide evidence and supportInfluence and persuadeAnalyze (Exploratory)Explore the dataAssess a原创 2016-07-25 20:42:49 · 638 阅读 · 0 评论 -
CS109 Lecture 3
CS109 Lecture 3Visualization GoalPresentationKnow facts about data Task: Communicate resultsExplorationData without hypothesisTask: Generate hypothesis The grestest value of a picture is when it原创 2016-07-25 20:34:34 · 490 阅读 · 0 评论 -
CS109 Lecture 2
CS109 Lecture 2ConceptsInfographicsDistribution CDF (cumulative distribution function) python import scipy.stats scipy.stats.norm.cdf(2) Histograms Histogram is easier to interpret than CDFNorm原创 2016-07-25 20:33:10 · 526 阅读 · 0 评论 -
天池竞赛-淘宝穿衣搭配(数据预处理部分)
赛题简介淘宝网是中国深受欢迎的网购零售平台,其中服饰鞋包行业占据市场的绝大部分份额,围绕着淘宝诞生了一大批优秀的服饰鞋包导购类的产品。穿衣搭配是服饰鞋包导购中非常重要的课题,它所延伸出的技术、算法能广泛应用到大数据营销几乎所有场景中,如搜索、推荐和营销服务。淘宝穿衣搭配算法竞赛将为参赛者提供搭配专家和达人生成的搭配组合数据,百万级别的淘宝商品的文本和图像数据,同时还将提供用户的脱敏行为数据。期待参赛原创 2015-10-23 01:16:53 · 5705 阅读 · 9 评论 -
(文本表示及挖掘)Representing and Mining Text
主要内容:1. Text data2. Bag of words3. N-gram sequence 4. Text mining 案例(一) text data文本数据(Text data )的特点Unstructured data (非结构化数据)Linguistic structure(语言结构)——NLP (自然语言处理)文本数据的缺陷(Text data’s problem原创 2015-09-16 22:03:37 · 1085 阅读 · 0 评论 -
(模型选取)Fitting a Model to Data
我们常常需要将数值变量正规化(normalize) 线性分类器直观的理解是属性值的加权和(weightedsum) 模型比较Support Vector Machine Linearregressionlogisticsregression共同点:都是拟合一个线性模型不同点:使用不同的目标函数(CostFunction /LossFuncti原创 2015-09-01 14:40:50 · 1015 阅读 · 0 评论 -
(过拟合及其防治)Overfitting and Its Avoidance
Chapter 5.总结2015年8月27日19:05主要内容:Overfitting(问题)判断和防止overfitting 的方式 —————————————————————————————————— 过度拟合的模型往往不能进行一般化推广(generalization) 拟合问题需要在两个方面进行权衡 需原创 2015-08-28 16:22:20 · 1420 阅读 · 0 评论 -
(决策分析思考)Decision Analytic Thinking
主要内容:准确度评判标准的缺陷 The Confusion Matrix 非均衡类别的问题 Data-Analytic Thinking 分析框架:期望值 模型评判的基准(Baseline) ——————————————————————————————————————————————— (一)准确度评判标准的缺陷 首先需要肯定的是准确度(plain accu原创 2015-09-05 17:16:57 · 1265 阅读 · 0 评论 -
(相似度、邻近及聚类)Similarity, Neighbors, and Clusters
主要内容:相似度(Similarity) (can be used for classification and regression) 距离函数(Distance Function) Nearest - Neighbor Hierarchical Clustering K-Mean ——————————————————————————————————(一)相似度相似度是很多数原创 2015-09-01 14:18:08 · 12396 阅读 · 0 评论 -
(可视化模型表现)Visualizing Model Performance
Stakeholders outside of the data science team may have little patience for details, and will often want a higher-level, more intuitive view of model performance. It is important for the data sc原创 2015-09-08 13:18:24 · 1024 阅读 · 0 评论 -
[Enthought Traning] Scientific Computing in Python
Enthought TraningScientific ComputeringData InterpolationNormal Interpolation原创 2016-08-31 19:53:31 · 1042 阅读 · 1 评论