- 博客(25)
- 收藏
- 关注
翻译 Structured Streaming Programming Guide(spark3.3.0)
Structured Streaming 是基于 Spark SQL 引擎构建的可扩展和容错流处理引擎
2022-07-08 09:42:39 157 1
原创 docker学习
docker概述为什么会出现docker技术?(docker技术解决什么问题)开发和运维配置的环境不同,导致软件运行失败软件的环境无法跨平台(linux,windows)docker怎么做的开发人员:把软件和环境打包->镜像->放到docker仓库使用者(运维):下载安装docker即可...
2022-03-11 17:27:03 1574
原创 windows下spark+hadoop+pyspark环境配置
试了无数个教程,终于找到特别靠谱的,亲测有效,对下载较慢的安装包可以搜索国内镜像下载。https://www.jianshu.com/p/5c490411f160最终成功版本python = 3.5hadoop = 2.7.7winutils = 2.7.1spark = 2.4.6scala = 2.11.8jdk = 1.8...
2020-08-07 15:53:13 263
原创 腾讯云服务器配置Hadoop+Hbase笔记
腾讯云服务器购买购买腾讯云学生服务器,一个月视频会员的钱,买不了吃亏买不了上当。选的ubuntu系统主要配置流程参考这里服务器初始配置创建新用户hadoop,并使用/bin/bash作为shellsudo useradd -m hadoop -s /bin/bash为新用户设置密码sudo passwd hadoop为hadoop增加管理员权限sudo adduser h...
2020-04-21 22:47:08 550
原创 下载pycorrector时遇到kenlm下载失败问题
问题:pycorrector需要使用kenlm,但是直接pip install kenlm会报错。解决办法: 在https://codeload.github.com/kpu/kenlm/zip/master直接下载kenlm的压缩包,解压缩后放到site-package路径下,然后cd进入包内,python setup.py install安装即可...
2019-12-25 14:55:10 692
原创 neural topic model
论文参考:A Novel Neural Topic Model and Its Supervised Extension主要思想:将神经网络和topicmodel结合,将LDA中对于狄利克雷分布的参数估计转换到神经网络中对于隐藏层参数的估计,设定损失函数,通过迭代学习得到最优参数,并且这也对加入标签数据更加友好。代码:github上有实现,但是参数更新的过程中出现的问题导致收敛到0,并且作者...
2019-06-11 16:32:22 1538 2
原创 机器学习实战学习笔记
目录一、分类1.K近邻1.1 算法概述1.2 算法一般流程:1.3 算法要素1.3.1 距离度量1.3.2 k值的选择1.3.3 分类决策规则1.4 k近邻法的实现:kd树1.4.1 构造kd树1.4.2 搜索kd树1.5 额外的2.决策树2.1 算法概述1.2 算法流程1.3 特征选择1.3.1 信息增益3.基于概率论的分类方法:朴素贝叶斯4.Logistic回归5.支持向量机6.利用AdaBo...
2019-04-06 21:00:44 1087
原创 python正则表达式---参考官方文档
正则表达式基础使用Python raw字符串常规的表达式中会使用'\'来作为转义字符,避免调用关键字的特殊含义,在re模块中我们使用Python的raw string来解决这个问题,例如r'\n'表示包含\和n而不是\n贪婪模式和非贪婪模式使用?来实现非贪婪模式,也就是匹配尽可能少的字符,贪婪模式则相反,要匹配尽可能多的字符代码功能.匹配任意一个字符,除了\n...
2019-03-26 11:29:35 885
原创 python字典(dictionary)
参考http://www.runoob.com/python/python-dictionary.html基础字典包括在{}之间每个键值对之间用,隔开,键值用:隔开d = {key1 : value1,key2 : value2}键是唯一的,如果重复的话最后一个键值对会自动替换掉前面的访问#!/usr/bin/python dict = {'Name': 'Zara', 'Ag...
2019-03-25 17:09:00 220
原创 关于jupyter notebook的python版本配置问题
jupyter notebook确实是个贼好用的编辑器,但是之前一直因为python版本的原因没能使用,今天不小心解决了,记录一下,希望能同样被困扰的人一点帮助python版本问题我没有安装anaconda,直接安装了两个python版本,现在一般用python3(用的时候要使用 py -3 -m来运行),所以我之前只在python2版本下install了jupyter,今天看了一下pytho...
2019-03-21 11:27:19 2643
原创 机器学习入门到放弃
偏差和方差偏差值得是算法的期望预测和真实预测之间的差距,反映了模型本身的拟合能力:方差度量了同等大小的训练集的变动导致学习性能的变化,刻画了数据扰动所造成的的影响。当模型越复杂的时候,拟合的程度越高,模型的训练偏差就会很小,但是如果放到测试集上模型的变化就会很大,也就是模型的方差很大。所以模型过于复杂的时候会导致过拟合。当模型越简单的时候,模型的方差很小,在测试集和训练集上的额记过差别不会...
2019-03-16 13:36:05 171
原创 实习准备——数据库基础复习
大二的时候学的数据库,三年没碰了,当时记得学的贼溜,基础语法学的是sql server,后来蹭了隔壁东软来的老师的课,就学了Oracle,大作业也是用的PL/SQL(我写后端是因为只有我的电脑装的上PL/SQL),最近准备实习发现居然还会问数据库,所以赶紧捡一捡。先从基础入门开始。参考https://www.cnblogs.com/kscnchina/p/4570865.htmlOracle数...
2019-03-11 17:33:31 268
原创 法研杯数据处理
罚金预测数据预处理从原始json文件中抽取出facts文本和punish_of_money标签。将facts文本分词后写入data_train.txt文件(还是使用jieba,简单去除了长度小于等于1的词,没有筛选词性,单纯觉得如果生成神经网络模型的话会破坏上下文关系)punish_of_money取log2后取整作为标签将数据存成fasttext需要的格式,不需要生成词向量,因为fa...
2019-01-15 09:26:19 1707 4
原创 复现Machine Comprehension by Text-to-Text Neural Question Generation记录
流程准备阶段工具准备数据准备实验过程训练过程功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入准备阶段包括工具的准备和...
2018-11-14 15:53:41 621
原创 交通项目处理过程
数据处理xml文件处理将所有的xml文件目录存到一个txt文件中,方便批量解析。 使用cmd中的dir命令实现,“dir/b/a-d “.\”>”.\文件名.txt””,第一个.前填文件夹的名字,第二个.前是生成的txt的名字。...
2018-08-13 15:58:07 146
原创 Play Framework中的Groovy模板引擎
啊啊啊啊啊啊终于找到了他是怎么写的了,先让我哭一会。。。。顺便感谢下大佬 http://weblove.iteye.com/blog/2042990 Play这个东西用了自己的模板引擎生成HTML 页面,这个引擎使用了Groovy作为表达式语言。可以直接使用Groovy语言来创建动态的页面,但是不需要学习Groovy的所有知识,只需要了解跟Java非常相近的一部分。Play将所有的模板文件都放...
2018-05-20 22:46:24 437
原创 HTML学习
一.HTML简介<!DOCTYPE html> <!--声明为HTML5文档,html不区分大小写--><html> <!--HTML元素的根元素--> <head> <!--包含了文档的元(meta)数据--> <meta charset = "
2018-04-20 17:21:43 362
原创 play framework学习问题
在网上下载的librec的demo,使用了play framework来实现web端的电影推荐,所以只好先学习下play framework的使用。在网上下载安装包,解压缩到d盘根目录下(可以根据实际情况选择,但是文件名最好不包含空格)将其路径添加到path中,在高级设置中选择修改path变量,将D:/play-1.4.5添加到path中在文件夹中摁住shift键右击,选择打开power...
2018-04-19 19:56:11 274
转载 LibRec导入Eclipse(每次都百度好烦啊)
LibRec导入Eclipse(自己写一个好了)在官网https://www.librec.net/download.html下载安装包,解压缩以maven project的方式导入,File -&gt;Import-&gt;Maven-&gt;Existing Maven Projects,找到下载的文件测试的话:以src/test/java下的包为例,打开net.librec.rec...
2018-04-18 16:16:06 1651 2
原创 初学 c++ STL 容器
学习自http://blog.csdn.net/conanswp/article/details/23297441 C++STL基本容器的使用容器分类c++中主要有两种容器:顺序容器和关联容器。顺序容器包含vector、list、dequeue等。其中vector表示连续的内存,基于数组实现;list表示非连续的内存,基于链表实现;dequeue与vector类似,但是对首元素提供插入和删除的双向
2017-05-18 17:14:29 253
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人