自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 windows java访问虚拟机中的hbase

为了演示hbase的相关操作,我在windows7中安装了虚拟机vmware,在虚拟中安装了hadoop和hbase环境具体环境如下 windows 7 vmware 12 使用 centos 6.5 hbase 1.2.4 和 hadoop 2.5查看hbase-site.xmlhbase的配置如下,见hbase-site.xml<proper...

2018-08-21 14:16:24 2672

原创 样本不均衡问题

概述learning-imbalanced-classes 非常好的一篇文章,里边提到了指标评估、不同解决方法的难易程度。核心是关注数据本身的特点,来进行选择。主流方法采样Sampling-based methods上采样 增加少数类的样本/正样本),如SMOTE,这种方法应用较多下采样 减少多数类的样本/负样本混合 增加正样例、同时减少负样例)(实际中,用的不

2018-01-29 14:37:27 1935

原创 今日头条app数据包分析

数据包分析wireshark+Connectify Hotspot(也可以是其他wifi共享工具),参考:http://jingyan.baidu.com/article/19192ad85ca947e53e5707cd.html 如果不想用安卓机的话,也可以使用网易MuMu模拟器安装一个应用。分析结果找到以下几个网址: 1) http://mon.snssdk.com/monitor/sett

2017-06-13 16:24:05 11717

原创 Python multiprocessing & scipy optimize leastsq线程安全问题

错误状态描述:单线程运行时,没有任何错误,多线程运行时,时不时收到SystemError: null argument to internal routine。通过traceback确认是optimize.leastsq的问题!

2017-05-27 15:44:20 1995

原创 FTRL之初学笔记

理论FTRL的发展历程,见微博团队冯杨的在线最优化求解.pdf 网页版见在线最优化求解(Online Optimization)之五:FTRL原始论文:https://www.eecs.tufts.edu/~dsculley/papers/ad-click-prediction.pdf 原论文的中文总结:Google广告点击预估 [KDD2013],其他注释如:各大公司广泛使用的在线学习算法FT

2017-05-03 09:33:09 3130

原创 逻辑回归理论及实践

理论为了加深对logistic回归的理解,最好理解广义线性模型和逻辑回归的关系 斯坦福CS229机器学习课程笔记二:GLM广义线性模型与Logistic回归 从广义线性模型到逻辑回归实践源码编写Python实践之(七)逻辑回归(Logistic Regression)第三方工具pythonLogistic Regression in python 对应的中文版python实现逻辑回归Rucla的

2017-05-02 13:58:21 480

原创 我理解的计算广告

机器学习经典案例:解析微信朋友圈的lookalike算法 2017 广点通DMP定向功能技术体系解析 2015 DSP基础算法与模型研究 2013

2017-03-31 19:01:33 876

原创 python下的网页数据请求

Requestspip install requests 来安装requests requests官方doc:各功能模块的简介,叙述清楚,在左栏可以选择chinese版本的doc翻译 。cookie使用 使用requests方法+ cookies参数 引自requests中的官方文档: To send your own cookies to the server, you can use

2017-03-27 15:20:26 586

原创 微博抓取之各种方法收集

非wap版微博模拟登陆研究知乎上的各种答案:Python 爬虫如何机器登录新浪微博并抓取内容?Python 模拟登录新浪微博的两种方法github上的一个很吊项目:完成微博、知乎、微信上的各种登录: 给出了网页、wap版登录的几种方式和代码

2017-03-24 12:49:17 4129

原创 scrapy使用总结

scrapy介绍系统架构中间件pipeline一些核心的类更高级的话题使用举例安装问题

2017-03-21 17:58:47 1139

原创 CTR预估

CTR预估算法小结深入FFM原理与实践 CTR预估中GBDT与LR融合方案杨鹏谈世纪佳缘推荐算法:基于Spark GraphX,弃GBDT和LR用FM

2017-01-12 21:41:59 541

原创 大公司技术博客站点汇总

美团大数据平台&推荐算法 http://tech.meituan.com/

2017-01-12 20:00:31 571

原创 文本分类

主题模型及其在文本情感分析中的应用

2017-01-12 17:16:36 433

原创 机器学习面试准备

距离度量文本相似度文本相似性算法推荐系统分类算法逻辑回归朴素贝叶斯KNN决策树过拟合同时在分类时,有时会遇到过拟合问题,怎么解决呢???? 1. 减少feature个数(人工定义留多少个feature、算法选取这些feature) 2. 规格化(留下所有的feature,但对于部分feature定义其parameter非常小) Stanford Machine Learning: (3). R

2016-12-20 22:21:15 371

原创 程序技术类基础资料整理

算法动态规划常见的动态规划问题分析与求解 高效面试之动态规划DP - 排序数据结构B/B+/红黑树资源july的程序员面试、算法研究、编程艺术、红黑树、数据挖掘5大系列集锦 july的github《编程之法:面试和算法心得》 V2EX

2016-12-15 22:52:46 353

原创 爬虫之登陆验证

运行爬虫抓取某些网站的时候,经常会碰到需要登陆验证(输入账号、密码)之后才能获取数据的情况。那么问题来了,如何完成登陆验证呢?下面以itunes为例大概总结两种方法。主要使用工具为python/java、selenium、phantomjs或firefox/chrome等浏览器.一 python urllib2库的简单介绍本人之前主要使用java进行外部数据获取,用的工具包httpclie

2016-11-25 10:49:55 38182 2

原创 hive使用小结

hive各版本主要特征Hive 各版本关键新特性(Key New Feature)介绍官网下载页面的介绍hive基础命令行接口hive提供的用户接口包括:CLI、Client、WebUI几种方式,我们平常主要使用CLI方式,未来集群升级之后可能会有提供可视化的界面允许我们直接从WebUi访问。早期的hive版本主要使用HIVE CLI(old),之后发展为使

2016-02-26 17:34:22 4780

原创 hadoop生态圈综合简介及架构案例

SPARK大数据盘点之Spark篇HBASEApache HBase 2015年发展回顾与未来展望ZOOKEEPER用ZooKeeper真的low吗?上千个节点场景配置服务方案大讨论微博基于Docker容器的混合云迁移实战

2016-02-26 17:29:28 640

原创 storm入门之资料收集

官网Read these firstRationaleTutorialSetting up development environmentCreating a new Storm projectDocumentationDocumentation Index 官网文档列表(一定要先看这个目录,这样大概知道storm有哪些功能模块)ManualJavado

2016-02-26 17:17:08 521 1

原创 Hbase学习入门

1. Python 通过thrift接口连接Hbase读取存储数据hbase官网APIhttps://archive.cloudera.com/cdh5/cdh/5/hbase/apidocs/org/apache/hadoop/hbase/client/package-summary.html淘宝技术博客hbase集群升级和优化

2016-02-26 17:15:52 489 1

原创 hadoop生态圈综合简介及架构案例

HBASEApache HBase 2015年发展回顾与未来展望ZOOKEEPER用ZooKeeper真的low吗?上千个节点场景配置服务方案大讨论微博基于Docker容器的混合云迁移实战

2016-02-26 16:14:43 497 1

原创 mysql字符编码问题latin1到utf8

测试目的:java从mysql读取数据并打印测试环境1a. hadoop集群某节点的环境是utf8,java代码也是utf8编码b. 需要读取的mysql服,数据库、数据表均是latin1方法及结果运行mysql -u* -p* -A -h 进入mysql服1. 先在mysql下确认原始数据是什么编码,经过下面三步可以确认原始数据是latin1进

2015-12-09 13:18:28 10690 1

原创 爬虫之自动保存文档-使用python/selenium

网络抓取的时候会碰到需要从网站下载文件的情况。下面提供两种方法: 1.  selenium + firefox + firefoxProfile核心要点是在firefox中设置相关的下载参数,然后在模拟点击的时候,selenium webdriver会自动保存对应的文档。貌似文件的自动保存需要使用的webdriver只能是firefox。在网上并没有搜到使用对其他webdriver工具

2015-11-27 17:01:18 4522 1

原创 Thrift初步

董西成 的thrift介绍Thrift: The Missing GuideApache Thrift - 可伸缩的跨语言服务开发框架

2015-01-13 12:02:55 375

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除