自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 收藏
  • 关注

原创 ## 1 模板

时间表:早上:8:30 Xgboost 校长博客 9:00 KET 阅读 Xgboost 校长博客下午:1. 给佳诺上课晚上:复习 Xgboost降低自己的敏感度,事情简单就好,不要过于追求,不然难受的是自己。善良就好,但不要让别人伤害到自己,保护好自己为前提。外圆内方。注意事项:1. 不要过于着急回复,5 分钟左右回复比较好,但也看消息的着急程...

2022-01-09 15:03:28 226

原创 3.29 Python 基础知识

1. Python 在一些知名公司的应用谷歌、CIA、NASA、YouTube、DropBox、Instagram、Facebook、Redhat、豆瓣、知乎、春雨医生等

2019-03-30 20:37:41 172

原创 七月推荐系统实战 第 2 课

Match:召回阶段不止一个算法Ranking:

2019-03-29 19:09:34 572

原创 3.26 爬虫笔记(四)

5. get 方式6. 构建请求头部信息(这是反爬第一步)伪装自己的 UA ,让服务端认为你是浏览器在上网构建请求对象:urllib.request.Request()

2019-03-27 15:28:13 115

原创 3.25 爬虫笔记(三)fiddler 抓包工具

fiddler一个网页的呈现,中间不止一次 http 请求,平均一个网页差不多 10-15 个 http 请求谷歌:右键开发者工具,network ,点击请求,右边栏请求详细信息;右边栏:request headers responsequery string : get 参数form data : post 参数fiddler :配置...

2019-03-25 18:33:14 128

原创 3.25 爬虫学习笔记(二)Http 协议详解

Http 协议什么是协议?双方规定的传输形式Http 协议:网站原理 应用层的协议 ftp(21)(文件传输协议)http(80) 和 https(443) ssh(22) mysql(3306) redis(6379) mongo(27017)客户端(浏览器)发送请求(http 协议) html css js服务端 响应内容 Python 系统:Linux Ubuntu数据库 m...

2019-03-25 16:04:04 303

原创 3.25 爬虫学习笔记(一)爬虫概念、分类、课程内容

1.爬虫概念什么是爬虫?程序员:写程序,然后去互联网上抓取数据的过程互联网:网,有好多的 a 链接组成的,网的节点就是每一个 a 链接,url (统一资源定位符)哪些语言可以实现爬虫?php,可以做,号称世界上最优美的语言,多进程、多线程支持的不好java,也可以做爬虫,人家做的很好,最主要的竞争对手,代码臃肿,重构成本大c、c++,是你能力的体现,不是良好的选择python...

2019-03-25 14:18:09 244

原创 3.23 优酷推荐学习笔记

ABTestN 多个字段组合在一起,就是一个推荐日志推荐引擎

2019-03-23 14:37:07 106

原创 3.23 推荐系统中的矩阵分解技术学习笔记

推荐系统最终的目标就是对于任意一个用户,预测出所有未评分物品的分值,并按分值从高到低的顺序将对应的物品推荐给用户。本文针对推荐系统中基于隐语义模型的矩阵分解技术来进行讨论,推荐系统中的矩阵分解技术1.评分矩阵评分矩阵往往是一个稀疏矩阵,需要进行矩阵分解,分为特征值分解(eigendecomposition)与奇异值分解(Singular value decomposition,SVD)...

2019-03-23 09:31:23 307

原创 推荐系统 3.20、3.21、3.22、3.23 学习笔记

3.20 晚上:mqlog: 消息队列日志AUC: 衡量的是序的指标注意: 特征是类别型的,需要 ont-hot 编码数据稀疏性是实际问题中不可避免的挑战FM 因子分解机 笔记FM 算法解析应用场景: 点击预估目的: 旨在解决稀疏数据下的特征组合问题One-hot 导致样本数据的稀疏性和特征空间剧增关联特征与 label 的正向相关性在实际问题中是普遍存在的多项式模型是包含特...

2019-03-23 09:11:34 213

原创 3.16 推荐系统学习笔记

RPC 框架干货 | 成为一名推荐系统工程师永远都不晚CS的陋室深度学习在推荐算法中的应用实践推荐系统资料隐语义模型浙江数本网络科技的招聘信息很详细推荐算法知乎个性化推荐系统,必须关注的五大研究热点ResysChina让你又爱又恨的推荐系统爱奇艺推荐系统介绍达观数据的推荐系统架构项亮推荐系统代码推荐资料...

2019-03-20 13:42:10 186

原创 第1 章 好的推荐系统

第1 章 好的推荐系统今日头条推荐系统详解

2019-03-13 21:32:41 110

原创 燕十八 Mysql 笔记 68 课

68 建表过程与字符类型的意义目的:要学会建表知识点:列类型怎么建表?以在 A4 纸上建表为例,表头写完就算表建好了,后面的是插入数据,建表的过程其实就是一个声明字段的过程学号姓名家乡入学年份001Mark山西2014建表又和列类型有什么关系呢?列类型大小,过大浪费资源,过小存不下,合理分配空间。存储同样的数据,不同的列类型,所占的空间和效率是不一样...

2019-03-04 20:38:15 2100

原创 29 讲、开发 wordcount 程序

Spark 本身是使用 scala 开发的开发 wordcount 程序编写 Spark 应用程序,在本地进行测试第一步:创建 SparkConf 对象,设置 Spark 应用的配置信息 ,使用 setMaster() 可以设置 Spark 应用程序要连接的 Spark 集群的 master 节点的 url ,但是如果设置为 local ,则代表在本地运行第二步:创建 JavaSpa...

2019-02-17 09:32:53 161

原创 28 讲、Spark 基本工作原理与 RDD

需要多看几遍!!!Spark 基本工作原理:分布式主要基于内存(少数情况基于磁盘)迭代式计算Spark 工作流程客户端 (Client),我们在本地编写了 spark 程序,然后你必须在某台能够连接 spark 的机器上提交修改 spark 程序。Spark 集群:程序提交到 spark 集群上运行,运行时先要从 Hadoop Hdfs Hive 上读取数据,读取到的数据存储...

2019-02-16 17:00:08 290

原创 SQL 数据库基础

一、数据库简介解决的问题:持久化存储,优化读写,保证数据的有效性关系型数据库:基于 E-R 模型、使用 sql 语言进行操作分类:文档型 sqlite(移动智能终端)、服务型(服务器端,安装界面和服务,局域网,大型)数据库设计:三范式:列不可拆分(姓、名),唯一标识,引用主键关系及存储:1对1、1对多、多对多二、登录方式开启服务登录方式及设置添加用户名连接局域网中...

2019-02-15 10:39:06 112

原创 Mysql 笔记

基本概念:表、库、服务器mysql -uMark -p. 连接数据库(不建议直接连接)show databases; 显示有哪些库use test; 选库语句创建数据库:create database 数据库名删除数据库:drop database 数据库名Mysql 中表列可以改名,database 不可以改名create table stu(sNum int primary ke...

2019-02-15 09:33:06 122

原创 Mysql 笔记

基本概念:表、库、服务器mysql -uMark -p. 连接数据库show databases 显示有哪些库use test; 选库语句create database 数据库名drop database 数据库名Mysql 中表列可以改名,database 不可以改名create table stu(sNum int primary key auto_increment,sName...

2019-02-12 17:15:59 107

原创 深度学习课程之文本预处理、词袋模型、word2vec、语言模型(1.9)

词向量和语言模型深度学习其实最成功的应用是在图像上,有了 CNN 可以很好地提取图像上的特征,这些特征经过几层的神经网络结构可以很好地组合成比较抽象的特征。NLP 常见任务自动摘要:媒体需要的头条通过 NLP 自动提取机器翻译主题识别文本分类(主题分类、情感分类、按照你的需求分类)问答系统聊天机器人:NLP 的终极任务NLP 处理方法传统:基于规则(去学习语言之间的语法规则...

2019-01-09 10:39:34 2957

原创 Spark 学习笔记 1

大数据 HadoopHDFS 分布式存储系统MapReduce 计算框架Hive 用 SQL 访问 HDFS

2019-01-07 17:57:52 118

原创 5. 关键字提取算法

5.1 关键词提取技术概述信息爆炸,提取有用的信息,利用关键词;关键词算法,可以分为有监督和无监督两类。有监督主要是通过分类的方式进行,通过构建一个较为丰富和完善的词表,以类似打标签的方式,达到关键字提取的效果。缺点是:人工维护成本很高无监督主要是:TF-IDF 算法、TextRank 算法和主题模型算法(LSA、LSI、LDA等)5.2 关键词提取算法 TF/IDF 算法基于统计的方法...

2019-01-07 17:24:30 861

原创 3. 中文分词技术

理解自然语言的过程:中文分词技术、短语划分、概念抽取以及主题分析、自然语言理解3.1 中文分词简介汉语中,词以字为基本单位,但是一篇文章的语义表达却仍然是以词来划分的分词歧义、未登录词、分词粒度粗细等都是影响分词效果的重要因素中文分词方法:规则分词、统计分词、混合分词(规则加统计)规则分词:通过人工设立词库,按照一定方式进行匹配切分,实现简单高效,对新词很难处理机器学习统...

2019-01-01 15:04:49 366 1

原创 2. NLP 前置技术解析

很多的数据科学库、框架、模块以及工具箱可以有效地实现 NLP 大部分常见的算法与技术需要掌握 Numpy、正则表达式2.1 搭建 Python 开发环境2.1.1 Python 的科学计算发行版 — Anaconda2.2 正则表达式在 NLP 中的基本应用正则表达式是一种定义了搜索模式的特征序列,主要是用于字符串的模式匹配,或是字符的匹配。NLP 通常所需要处理的语料,...

2019-01-01 14:37:53 391

原创 7. 文本向量化

基于神经网络的文本向量化方法:word2vec 词向量算法和 doc2vec 文本向量化算法本章要点:1.7.1 文本向量化概述

2019-01-01 14:08:36 312

原创 8. 情感分析技术

实战电影评论情感分析(文本分类问题)1. 基础感念文本类型:句子、段落、文档情绪状态:正面、负面、中性应用:购物、旅行、电影2. 文本表达和文本分类深度学习之前,表示方法主要是 BOW 和主题模型,分类模型主要是 SVM 和 LR3.词嵌入算法...

2019-01-01 10:31:08 1585

原创 1. NLP基础

1.1 什么是 NLP1.1.1 NLP 的概念分为两个部分:自然语言处理与自然语言生成1.1.2 NLP 的研究任务舆论分析可以帮助分析那些话题是目前的热点1.2 NLP 的发展历程...

2019-01-01 10:29:05 445

翻译 模型融合

知 乎答案 

2018-12-05 14:46:31 134

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除