自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

阿塔的技术摸索之路

数学系程序媛,搜索推荐算法

  • 博客(22)
  • 收藏
  • 关注

原创 【算法面试 cheat sheet】logistic regression 逻辑回归篇

逻辑回归(logistic regression)是最基础的分类算法之一,在面试中经常作为切入点来考察候选人的机器学习算法基础能力。那关于逻辑回归,我们应该掌握什么,才能赢得面试官的认可呢?下面是自查清单,准备面试前可以一一 review 下。???? Cheat Sheet逻辑回归公式sigmoid 函数形式【延伸知识 】softmax 函数形式损失函数如何从最大似然角度解释损失函数目标 y 服从什么分布梯度下降一般梯度下降(batch)【延伸知识 】随机梯

2020-12-12 21:57:51 166

原创 从数学专业到统计专业再到算法工程师,如何校招,如何跳槽,如何提升自己。

作为一名算法工程师,我的经历应该不算是从业人员中的大多数。

2020-03-23 14:37:03 1602

原创 python 如何一行代码生成日期区间 list

import pandas as pdfrom datetime import datetime

2020-04-22 22:12:43 922

原创 一定一定不能错过的机器学习课程呐

下面的几个机器学习课程,非常适合萌新们入门,老司机们温故,那不如就一起来学习吧台大李宏毅 机器学习课程课程地址课程大纲 [2020 版]李宏毅被同学们称为宝可梦老师,整个课程,学习链路设计的非常合理,从最基础的 regression 和 classification 出发,再到 deep learing ,transfer learning 等比较复杂的算法。老师讲课逻辑清楚,课...

2020-04-10 22:21:34 211

原创 pandas 如何将某一列的值(list) 转为 multi_hot

利用 pandas 的 get_dummies 把某一列转成 one_hot 形式很常见,但是如果这一列是列表,而我们想把它转成 multi_hot 呢,方法如下:

2020-02-29 21:03:07 2081

原创 根据文件修改时间来判断程序是否正常执行

很多时候我们需要根据某些文件是否正常生成,来判断程序是否正常执行。一般大厂可能会有自己的一些报警系统来帮助算法同学监测这类问题。那其他同学就需要自己来写个程序来监测了。 #!/usr/bin/env python ...

2019-02-27 11:33:38 288

原创 python logging 模块发邮件

工作中需要及时解决线上的 bug,所以,及时获取 log 中的 warning,error 是非常有必要的。 1 import logging 2 import logging.handlers 3 4 class EncodingFormatter(logging.Formatter): 5 def __init__(self, fmt, datefmt=None,...

2019-02-20 16:53:54 775

原创 MDLP 详解

MDLP 论文解析前言Introduction二分离散 (Binary Discretization)算法推广最小描述长度应用:a coding problem前言学习这个离散化算法的契机是因为身边有个朋友过来问,但网上相关资料又不太多,所以只能死磕论文。具体的论文是:Multi-Interval Discretization of Continuous-Valued Attributes f...

2018-11-25 19:44:01 3704 2

原创 [论文选读]Google News Personalization: Scalable Online Collaborative Filtering

这次读一下新闻推荐领域比较经典的一篇文章:Google News Personalization: Scalable Online Collaborative Filtering,博文中会写一些我的笔记和补充知识。 Google新闻有以下两个特点:数据量巨大;不论是用户,新闻在短短几天的时间里都是百万级别的;新闻作为推荐的item更新速度是很快的。(新闻领域最突出的特点)所以,鉴于已有的推荐

2017-04-25 16:29:26 540

原创 Ipython notebook 使用graphlab

装好graphlab之后,首次在ipython notebook中import graphlab后,需要运行gl.get_dependencies()。运行后,需要将页面shutdown后重新启动,否则会报’module’ object has no attribute ‘SFrame’等类似的错。

2017-04-18 11:27:34 447

原创 数据分析实例--兰州二手房数据分析(二)

刚写完上一篇博,看狗熊会的微信就推送了北京二手房房价数据分析案例报告,好巧o(*≧▽≦)ツ。接着上一篇的内容,所有的分析都是在ipython notebook上完成的。数据来源:从网站上爬取(具体网址见上一篇文)。数据再次处理: 第一步:计算每间房屋的单位面积价格,加入到原有的DataFrame中,并存入mysql(也可以在mysql里直接操作)。第二步:将属性相对楼层的中、低,高改为类别变量0,

2016-08-10 17:08:52 1378

原创 数据分析实例--兰州二手房数据分析(一)

这篇博主要是想总结一下最近复习的知识点,爬虫和mysql以及pandas。 (一)数据获得 利用python中的selenium爬取http://esf.lz.fang.com/house-a0469/中城关区部分所有二手房的房价,面积,房屋位置,房间数,相对层数,朝向,建筑时间。selenium中主要用到的方法有: object.find_elements_by_tag_name obje

2016-07-17 21:38:34 1157

原创 数据分析面试必备算法[1] - Regression

马上就要面临找工作和面试的问题,我觉得很有必要对学过的东西进行一下梳理。所以强迫自己每周写一个面试可能会被问到的方面。如果有童鞋看,非常欢迎大家和我一起交流讨论,一起来准备面试~        首先是最基础的回归算法。对于回归需要了解的知识点有:Linear Regression判断线性模型是否适用于线性回归(残差图,画出yy,y^\hat{y}的关系)解(Normal Equation, 梯

2016-05-21 16:51:37 390

原创 数据可视化中需要注意的问题

最近在学哈佛数据分析的一门课 CS109 Data Science (http://cs109.github.io/2015/),其中 Lecture 3: Exploratory Data Analysis 主要讲的是数据建模前比较重要的一步,对数据进行合适的plot,这对我们初步了解数据,发现问题很有帮助。 以下的内容主要基于Lecture 3 的内容,图来自课中的讲义。可视化的目的交流 (

2016-05-12 22:08:24 1090

原创 分析某实习招聘网站上海地区的平均实习工资

关键字:爬虫 正则 python 之前学习过一点爬虫,爬过一些股票数据。也学过一点正则表达,不过还没有机会应用。 昨天刚好在看http://www.tuicool.com/articles/QBZzquY,一个有关如何学习数据分析的大致路径。打算再按照它给出的学习路径,从头有规划地再复习一下python和机器学习。看完里面提到的google的python课程中的正则表

2016-05-04 17:34:17 589

原创 ubuntu下连接mongodb报错的解决办法

在ubuntu下连接mongodb报错:couldn’t connect to server 127.0.0.1 shell/mongo.js   解决办法:   Manually remove the lockfile: sudo rm /var/lib/mongodb/mongod.lock   Run the repair script: sudo -u mongodb mongod -

2015-12-22 21:17:37 489

原创 谱聚类(二)

先介绍最基础的 unnormalized Laplacian 的 L=D−WL = D -W.首先给出L的两条性质,性质1   L具有如下性质:对于任意的向量f∈Rnf \in \mathcal{R}^n有, fTLf=12∑i,j=1nwij(fi−fj)2.f^T L f = \frac{1}{2}\sum_{i,j = 1}^n w_{ij}(f_i-f_j)^2.L是对称半正定的.L

2015-12-21 22:42:38 458

原创 谱聚类(一)

最近因为要报告文献a tutorial of spectral clustering,所以就仔细地学习了下谱聚类。其中很多大牛的博文都给了我很多帮助,真心的感谢每一个愿意分享学习的心得的大牛们。     这篇博文主要是对文献a tutorial of spectral clustering的一个学习记录,也再次帮助自己深化学习思路。 谱聚类是基于图的一种聚类方法。基本思想是将聚类问题变成图论中图

2015-12-18 22:17:42 451

原创 Coursera 台大 机器学习技法 第一讲 Linear Support Vector Machine

Large-Margin Separating Hyperplane之前是知道如果去做分类,边缘越大越好的道理,但却没有细细想过到底是为什么。在第一节,林老师清楚的讲明白了这个准则的由来。 当margin越大时候,说明这个分割平面对noise的容忍程度更大。因为test数据和train数据不可能完全一样,只是服从同一个分布。所以如果分割平面对noise的容忍程度更大的话,在test数据上它就更大

2015-11-18 22:57:39 453

原创 Elements of Statistical Learning Ch.15 Random Forest 学习笔记

在学习这章之前,并未系统的学习过bagging,不过了解的浅层的东西已经够用了。非常建议大家在学习ESL这本书的同时也学习python中的scikit-learn库。由于经验分布是收敛到真实分布的,所以Bagging (Bootstrap and Aggregation) 这个方法具有可行性。Bagging 中的样本是有放回的抽样。它会形成一个天然的并行模型。同时需要了解的是Bagging这个方法适

2015-11-13 11:49:02 422

原创 Elements of Statistical Learning Ch.2 监督学习

2.3 常用的两种预测方法线性回归的优点是:预测值比较稳定。缺点是:对模型结构需要作出大量假设,预测值可能不准确。 K-NN的优点是:对模型结构作出适度假设,预测值一般来说比较准确。缺点是:不稳定。2.3.1 线性模型和最小二乘线性模型在过去的30年一直作为统计领域的支柱。给定输入变量X=(X1,X2,⋅⋅⋅,Xp)X = (X_1,X_2,\cdot \cdot \cdot,X_p)(在机器学习

2015-10-20 11:42:42 374

原创 蓄水池算法 知乎实习笔试

因为知乎笔试接触到这个问题,po上来。问题起源于编程珠玑Column 12中的题目10,其描述如下: How could you select one of n objects at random, where you see the objects sequentially but you do not know the value of n beforehand? For concretene

2015-08-28 21:39:06 546

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除