MarkDown 公式书写

分数,平方 算式 markdown 7x+51+y2\frac{7x+5}{1+y^2}1+y27x+5​ \frac{7x+5}{1+y^2} 下标 算式 markdown z=zlz=z_lz=zl​ z=z_l 省略号 算式 markdown ...

2019-02-26 17:43:14

阅读数 169

评论数 0

【爬虫笔记】Scrapy爬虫技术文章网站

Scrapy相关基本介绍参考这里 一般的爬虫步骤: 新建项目 (scrapy startproject xxx):新建一个新的爬虫项目 明确目标(编写 items.py):定义提取的结构化数据 制作爬虫(spiders/xxspider.py):制作爬虫开始爬取网页,提取出结构化数据 存储内容(...

2019-05-12 22:48:45

阅读数 6

评论数 0

Ubuntu18.04 安装MySQL、Navicat

一、MySQL 1、安装MySQL 安装命令 sudo apt-get install mysql-server sudo apt-get install mysql-client sudo apt-get install libmysqlclient-dev 检验 sudo net...

2019-05-11 19:08:48

阅读数 8

评论数 0

【爬虫笔记】爬虫基础

爬虫基础 正则表达式 深度优先和广度优先遍历算法 url去重的常见策略 爬取真实数据 三个网站:技术社区、问答网站、招聘网站 技术:xpath + css 获取 data 模拟登陆 scrapy反爬虫技术 图片验证码 ip访问频率限制 user-agent随机切换 scrapy进阶 ...

2019-05-05 22:34:36

阅读数 5

评论数 0

【转载】word2vec 中的数学原理详解

文章目录一、前言二、预备知识三、背景知识四、基于 Hierarchical Softmax 的模型五、基于 Negative Sampling 的模型六、若干源码细节 原文传送门:word2vec 中的数学原理详解 word2vec 是 Google 于 2013 年开源推出的一个用于获取 wor...

2019-04-17 11:12:35

阅读数 22

评论数 0

集成学习(ensemble learning)(四)

该篇为集成学习的第四篇,主要关注GDBT,传送下之前的文章: 集成学习(ensemble learning)(一) 集成学习(ensemble learning)(二) 集成学习(ensemble learning)(三)

2019-04-16 14:36:28

阅读数 285

评论数 0

【数据竞赛】“达观杯”文本智能处理挑战赛6——模型优化

文章目录一、超参数1、网格搜索2、随机搜索3、贝叶斯优化二、Stacking1、核心图解(1)构建新的训练集(2)构建新的测试集(3)最终的训练与预测2、示例(1)构建新的训练集(2)构建新的测试集(3)多模型的处理(4)最终的训练与预测三、实现 一、超参数 优化可以分为参数优化和超参数优化。其中...

2019-04-15 21:43:36

阅读数 54

评论数 0

集成学习(ensemble learning)(三)

集成学习系列第三篇(Boosting相关方法),传送前两篇: 集成学习(ensemble learning)(一) 集成学习(ensemble learning)(二) 文章目录一、 一、

2019-04-14 21:10:53

阅读数 174

评论数 0

【数据竞赛】“达观杯”文本智能处理挑战赛5

一、LightGBM模型 1、XGBoost缺点 每轮迭代时,都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小;如果不装进内存,反复地读写训练数据又会消耗非常大的时间。 预排序方法(pre-sorted):首先,空间消耗大。这样的算法需要保存数据的特征值,还保存了特征...

2019-04-13 21:29:40

阅读数 26

评论数 0

集成学习(ensemble learning)(二)

接上一篇:集成学习(ensemble learning)。 本篇对集成学习中的 Bagging 和 随机森林算法 进行总结。 一、Bagging原理 Bagging 的弱学习器之间没有依赖关系,可以并行计算。 1、随机采样(BootStrap) 自助法,即有放回的采样,也就是说,之前采集到的样本...

2019-04-13 15:19:24

阅读数 80

评论数 0

【爬虫】Scrapy爬取腾讯社招信息

目标任务:爬取腾讯社招信息,需要爬取的内容为:职位名称,职位的详情链接,职位类别,招聘人数,工作地点,发布时间。 一、预备基础 1、Scrapy简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛,可用于数据挖掘、监测和自动化测试。 Scrap...

2019-04-12 23:31:00

阅读数 85

评论数 0

集成学习(ensemble learning)(一)

集成学习(ensemble learning)不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都可以看到集成学习的身影。 一、集成学习概述 基本思想:对于训练集数据,我...

2019-04-12 11:26:32

阅读数 85

评论数 0

【数据竞赛】“达观杯”文本智能处理挑战赛4

一、逻辑回归 逻辑回归(Logistic Regression, LR)是一种常用的处理两类分类问题的线性模型。 1、概率估计 LR 模型计算输入特征的加权和(加上偏差项),之后将中间结果输入 logistic() 函数进行二次加工后输出。 逻辑回归模型的概率估计(向量形式) p^=hθ(x)=σ...

2019-04-11 21:32:35

阅读数 18

评论数 0

【数据竞赛】“达观杯”文本智能处理挑战赛3

学习word2vec词向量原理并实践,用来表示文本 要求:分享学习笔记和代码,【只有代码的等于没有完成】 参考资料 1)CS224:https://www.bilibili.com/video/av41393758/?p=2 2)https://github.com/Heitao5200/DGB/...

2019-04-09 20:28:23

阅读数 375

评论数 0

【工具】镜像源

一、pip 国内源: 豆瓣:http://pypi.douban.com/simple/ 清华:https://pypi.tuna.tsinghua.edu.cn/simple 阿里云:http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://p...

2019-04-08 21:45:19

阅读数 41

评论数 0

【数据竞赛】“达观杯”文本智能处理挑战赛2

文章目录一、TF_IDF原理1、TF(item frequency)2、逆向文件频率IDF(inverse document frequency)3、TF-IDF二、TF-IDF算法实现1、方法一2、方法二三、达观实践 一、TF_IDF原理 TF-IDF(Term Frequency - Inv...

2019-04-06 15:30:20

阅读数 71

评论数 0

【数据竞赛】“达观杯”文本智能处理挑战赛1

一、数据竞赛简介 “达观杯”文本智能处理挑战赛 1、任务 建立模型通过长文本数据正文(article),预测文本对应的类别(class) 2、数据 传送门:链接: https://pan.baidu.com/s/11AOOn0xlv0TZjGeFfRc3Rw 提取码: 58r9 数据包含2个csv...

2019-04-05 13:06:31

阅读数 144

评论数 0

【工具】ubuntu下在百度云文件

文章目录1、安装 Chrome 插件 baiduexporter2、安装 Aria23、下载文件 1、安装 Chrome 插件 baiduexporter 传送门: 链接: https://pan.baidu.com/s/1HEotrEDnHab3Tcj4NRuSBQ 提取码: 4qk9 在Ch...

2019-04-05 10:24:48

阅读数 191

评论数 0

【NLP】Task5:神经网络基础

文章目录一、前馈神经网络二、简单的神经网络(tensorflow) 前馈神经网络、网络层数、输入层、隐藏层、输出层、隐藏单元、激活函数的概念。 感知机相关;利用tensorflow等工具定义简单的几层网络(激活函数sigmoid),递归使用链式法则来实现反向传播。 激活函数的种类以及各自的提出背...

2019-03-28 22:14:36

阅读数 735

评论数 0

【LeetCode】687. 最长同值路径

一、题目描述 给定一个二叉树,找到最长的路径,这个路径中的每个节点具有相同值。 这条路径可以经过也可以不经过根节点。 注意:两个节点之间的路径长度由它们之间的边数表示。 二、示例 示例 1: 输入: 5 / \ 4 5 / \ \ 1 1 5...

2019-03-26 22:10:28

阅读数 21

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭