MasanoYu-CSDN博客

原创 Python爬去全国天气状况

#全国城市import timeimport requestsfrom bs4 import BeautifulSoupheaders = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}#爬虫[Requests设置请求头Headers],伪造浏览器# 核心爬取代码url= 'htt

2020-11-17 14:42:59 163

原创笔记--统计语言模型

语言模型统计语言模型语言模型通常构建为字符串S的分布概率p（s），这里的p（s）实际上反应的是s作为一个句子出现的概率这里的概率指的是组成字符串的这个组合，在训练语料中出现的似然，与句子是否合乎语法无关你。假设训练语料来自于人类的语言，那么可以认为这个概率是一句话是否为人话的概率怎么建立统计语言模型？对于一个由T这个词按顺序构成的句子，p（s）实际上是求解的字符串的联合概率，利用贝叶斯公式，链式分解如下;从上面可以看出，一个统计语言模型可以表示成，给定前面的词，求后面一个词出现的条件概率

2020-11-17 14:40:33 154

原创面向数据规模可扩展的并行优化KMeans算法

如何解决大规模数据聚类的问题？基于Hadoop Map-Reduce的改进算法，要求较高的硬件资源配置，否则因为Hadoop分布式框架本身的通信，调度开销，甚至会低于单台机器的聚类效率传统的KMeans算法及背景NP-Hard问题：NP是指非确定性多项式（non-deterministic polynomial，缩写NP）。所谓的非确定性是指，可用一定数量的运算去解决多项式时间内可解决的问题。改进的KMeans算法将聚类数据预处理为二进制向量块按批次读入样本向量到内存更新类中心解决因数据规

2020-11-17 14:38:33 402

原创基于Spark的KMeans算法的并行化实现

聚类分析算法集中的KMeans以快速简单、对大数据集有较高的效率和可伸缩性、时间复杂度近于线性、适合挖掘大规模数据集等优点而被广泛应用，但该算法也有其特定的性能瓶颈。KMeans算法初始化过程中预先设定的K值很难估计，大多数全凭经验决定，具有主观性算法开始前随机选定的初始类簇中心也会在很大程度上影响聚类的结果传统的数据挖掘模型及其优化算法大多在单机上进行串行运算，当面对如此复杂多样的大规模数据集和多维数据类型时，由于单机的计算资源有限而造成挖掘算法不能快速准确地完成数据挖掘任务hadoop适合处

2020-11-17 14:37:34 860

原创 Oracle数据库安装完成后启动数据库startup时报错如下：

Oracle数据库安装完成后启动数据库startup时报错如下：[oracle@Danny ~]$ sqlplus / as sysdbaSQL*Plus: Release 11.2.0.4.0 Production on Sat Jul 16 01:38:13 2016Copyright © 1982, 2013, Oracle. All rights reserved.Connected to an idle instance.SQL> conn as sysdbaEnter use

2020-11-17 14:36:04 498

原创笔记--希尔伯特空间

希尔伯特空间希尔伯特空间是欧几里德空间的直接推广。对希尔伯特空间及作用在希尔伯特空间上的算子的研究是泛函分析的重要组成部分。设H是一个实的线性空间，如果对H中的任何两个向量x和y，都对应着一个实数，记为(x，y)、满足下列条件：①对H中的任何两个向量x，y，有(x，y)=(y，x);②对H中的任何三个向量x、y、z及实数α、β，有(αx+βy，z)=α(x，z)+β(y，z);③对H中的一切向量x，均有(x，x)≥0，且(x，x)=0的充分必要条件是x=0。则(x，y)称为是H上的一个内积，而H称

2020-11-17 14:34:24 589

原创 NLP-筛选简历模型

分词分词：将连续的文本，分割成语义合理的若干词汇序列Example：阿里云/自然/语言/处理划分方式不唯一，根据相应的需求进行划分停用词过滤在语句中，句子分为主干（主谓宾）与枝叶（定状补）两个部分停用词：在文本中大量存在，但却对语义分析没有帮助的词词干提取、词形还原、词袋模型词干提取：是指对一个单词去掉后缀，还原为词本身。主要应用在英文等西方语言中词形还原：指对同一单词不同形式的识别，将单词还原为标准形式，主要应用于英文等西方语言中以上两种相同点：二者都是对同一个单词的不同格

2020-11-17 14:33:09 1068

原创识别手写数字

识别手写数字感知器S型神经元标准神经网络学习算法随机梯度下降算法感知器是依据权重来作出决定的设备我们在模型中引入权重这一实数来表示输入值的重要程度，感知器就是依据权重作出决定的设备，随着权重和阀值的变化，我们可以得到不同的决策模型偏置偏置代表激活感知器的容易程度b=-threshold代替阀值我们可以将偏置看作一种表示让感知器输出1（或者用生物学术语，即激活感知器）的容易程度的估算。引入偏置的目的是更进一步的符号简化我们可以使用感知网络计算任何逻辑功能原因是与非

2020-11-17 14:32:03 76

原创 A05-基于人工智能的视觉识别技术

团队构成队长队员队员队员任务任务任务Hiddo小组张国庆马国庆方宇姚锦涛web展示界面技术辅助题目说明本题着力于生产环境的安全行为，通过摄像头采集并识别职工在生产车间是否佩戴安全帽的图像数据，开发一个车间安全帽检测系统。企业提供 7581 张含有佩戴安全帽的图片，并对该数据进行了预标注，选手可以自行对数据进行清洗，分成训练集与测试集，以及自行扩充数据集（需提供数据来源）。个人对本...

2020-04-25 21:27:11 2853 1

原创 Linux&ShellW6J

Linux&ShellW6J文件操作（共10分）一、判断题sort命令的作用：对文本文件的各行按照ascii码顺序进行升序排序。（ √ ）comm命令对两个已经排好序的文件进行比较。（ √ ）uniq命令可以去掉文本中重复的行。（ × ）二、单项选择题find命令按照文件名进行查找的模式为（A）A-name B-user C.-file D.-...

2020-04-03 16:55:39 113

原创 JAVAScanner类中的nextLine()报错

使用Scanner类中的nextLine();BUG报错代码public boolean ynContiue(){ boolean boo = true; while(true) { System.out.println("是否继续(y/n)："); String flag = sc.n...

2020-03-28 18:03:37 960

原创 Linux&ShellW5J-文件操作

Linux&ShellW5J文件操作（共10分）一、判断题（共4题，每题0.25分）1、系统中有一个文件的文件名为aaa.txt，那么这个文件的扩展名为txt。（ ×）2、假设当前工作区中有个文件的文件名为x11，文件内容也为x11，那么在本工作区使用命令grep -v [0-9] x11无法抓出这一行。（ √ ）3、file命令是用来展示文件的统计信息的。（ × ）4、...

2020-03-27 19:05:10 564

MasanoYu的博客