- 博客(15)
- 收藏
- 关注
转载 Git常用命令
git status --用于显示工作目录和暂存区的状态 git add. --将文件内容添加到索引(将修改添加到暂存区)。也就是将要提交的文件的信息添加到索引库中 git commit -m "" --将暂存区里的改动给提交到本地的版本库 git ...
2019-07-19 09:05:00 120
转载 Python有道翻译爬虫,破解反爬虫机制,解决{"errorCode":50}错误
一、引言参考网址:https://tendcode.com/article/youdao-spider/当前成功时间:2019-6-28本人使用环境:Python3.7 (Anaconda)IDE:PyCharm系统:mac二、具体操作2.1 审查元素(1)打开有...
2019-06-28 10:48:00 1702
转载 【Python 机器学习实战】Logistic回归
引言假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,以此进行分类。"回归"一词源于最佳拟合,表示要找到最佳拟合参数集。训练分类器时的做法就是寻找最佳拟...
2019-04-16 11:10:00 350
转载 【Python 机器学习实战】朴素贝叶斯
一、基于贝叶斯决策理论的分类方法优点:在数据较少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标称型数据。贝叶斯决策理论的核心思想:即选择具有最高概率的决策。二、条件概率条件概率:P(A|B) = P(AB)/P(B)贝叶斯准则...
2019-04-03 13:49:00 3924
转载 git版本管理
一 git基本介绍 1.1 git简介 Git是一个开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项目。 Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。 Git 与常用的版本控制工具 CVS, Subve...
2019-04-01 11:05:00 84
转载 【Python 机器学习实战】ID3决策树
一、决策树的构造决策树是一种依托决策而建立起来的一种树。在机器学习中,决策树是一种预测模型,代表的是一种对象属性与对象值之间的一种映射关系,每一个节点代表某个对象,树中的每一个分叉路径代表某个可能的属性值,而每一个叶子节点则对应从根节点到该叶子节点所经历的路径所表示的对象的值。优点:计...
2019-03-02 23:00:00 251
转载 【自然语言理解】二、数学基础
1.概率论基础1.1 概率概率: 概率是从随机实验中的事件到实数域的函数,用以表示事件发生的可能性。1.2 最大似然估计最大似然估计(MLE): 如果一个实验的样本空间是{s1,s2,...,sn},在相同情况下重复实验N次,观察到样本sk(1≤k≤n)的次数为nN(sk),则sk的相...
2019-02-05 12:58:00 203
转载 【自然语言理解】一、绪论
如何让计算机实现自动的或人机互助的语言处理功能?如何让计算机实现海量语言信息的自动处理、知识挖掘和有效利用?基本概念语言:是思维的载体,是人类交流思想、表达情感最自然、最直接、最方便的工具。自然语言:是指人类日常使用的语言,如汉语、英语、法语、德语,等等。语言学:...
2019-01-27 11:16:00 250
转载 [Python 机器学习实战] k-近邻算法
k-近邻算法概述k-近邻算法采用测量不同特征值之间的距离方法进行分类。优点:精度高、对异常值不敏感、无数据输入假定。缺点:计算复杂度高、空间复杂度高。适用数据范围:数值型(可以从无限的数值集合中取值)和标称型(只在有限目标集中取值)。kNN分类算法伪代码对未知类别属性的数据集中...
2019-01-26 20:32:00 143
转载 机器学习
一、机器学习概述 机器学习是从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测。 eg. AlphaGo下棋机器人、广告搜索 为什么需要机器学习? 解放生产力(智能客服) 解决专业问题(ET医疗) 提供社会便利 机器学习目的:让机器学习程序替换手动的...
2018-11-26 11:04:00 123
转载 爬虫
一、爬虫基本概念 1.1 爬虫定义 网络爬虫(又称网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。 只要是浏览器能做的事情,原则上,爬虫都能够做。 1.2 工作流程 搜索引擎流程:抓取网页—>数据存储—...
2018-10-30 11:39:00 118
转载 Spark上数据的获取、处理与准备
一、获取公开数据集**UCI机器学习知识库:**包括近300个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于:http://archive.ics.uci.edu/ml/** Amazon AWS公开数据集:**包含的通常是大型数据集,可通过Amazon S...
2018-10-27 01:23:00 400
转载 Hadoop常用命令
环境配置参考链接:https://blog.csdn.net/u011596455/article/details/53115410一、hadoop所在目录cd usr/local/hadoop二、启动hadoopbash ./starth.sh % 运行start-dfs...
2018-10-27 01:17:00 79
转载 Spark基本命令
一、spark所在目录cd usr/local/spark二、启动spark/usr/local/spark/sbin/start-all.sh启动Hadoop以及Spark:bash ./starths.sh浏览器查看:172.16.31.17:8080停止H...
2018-10-27 01:12:00 480
转载 K-Means算法
K-Means算法可视化:https://www.naftaliharris.com/blog/visualizing-k-means-clustering/ 基本概念: 要得到簇的个数,需要指定K值 质心:均值,即向量各维取平均即可(坐标值求平均) 距离的度量:常用欧几里...
2018-10-26 18:46:00 228
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人