自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

人工智能之路

IT girl 与你分享,一起学习。

  • 博客(43)
  • 收藏
  • 关注

原创 数据分析加可视化系统类的开题题目,超靠谱不怕找不到数据【推给2025届毕业生 】

1 基于python的动漫数据分析与可视化系统2 电竞游戏用户数据分析与可视化系统3 基于Python的电商网站电脑销售数据挖掘与分析系统4 基于python的乡村旅游舆情分析系统5 基于标签的个性化新闻推荐系统的设计与实现6 基于python的xx市旅游数据分析与可视化系统7 基于flask的蔬菜价格可视化系统8 气急数据分析与可视化系统9 新能源汽车数据分析与可视化系统10 共享单车数据分析与可视化系统11 气急质量数据分析与可视化系统。

2024-06-25 15:25:59 256

原创 数据类的开题题目,超靠谱不怕找不到数据【推给2025届毕业生】

1基于随机森林算法的高校热度排名与志愿推荐研究2 基于PySpark技术的贵州酱香型白酒的发展与分析3 基于数据挖掘对电脑评论的情感分析研究4 基于随机森林算法的住房租金预测分析与研究5 基于网络爬虫的人口数据研究与可视化分析6 基于Python的xx市二手房购房决策分析与可视化7 基于朴素贝叶斯算法的考研情感分析8 基于Python的电商网站彩妆数据的爬取与分析9 基于大数据的xx市天气预测与分析10 基于大数据技术的xx学院毕业生就业情况分析。

2024-06-25 15:06:23 222

原创 聚类算法

本文分析了Kmeans、Kmedoids、Cure、Birch、DBSCAN、OPTICS、Clique、DPC算法。除了Birch聚类算法的python算法调用了sklearn.cluster里的Birch函数,没有未搜到Clique聚类的matlab版本的算法。其余算法python和matlab算法都是根据原理所编。喜欢的给个star~喔。github项目2.聚类算法实际类别数据集如图2...

2020-04-30 22:26:08 3917 7

原创 牛客网程序AC

在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。第一次刷牛客网的题,第一道做的还不难。使用python语言因为有序,所以使用二分查找算法主要注意数组下标 i,j。写算法时需要先构思好再写。# -*- coding:utf-8 -*-clas...

2020-04-29 16:34:09 406

原创 kaggle COVID-19项目

关于新型冠状病毒感染的肺炎的研究,研究学者已经发出了大量论文,由kaggle提供的COVID-19的数据集被认为是搜集最全的相关论文。该数据集提供了论文网站。爬取网站论文成为该项目必不可少的步骤。步骤一、爬取COVID-19相关论文的内容步骤二、寻找医学单词1、知乎或者其他博客上的医学单词。复制粘贴存入medical.txt文件中。 2、爬取某个医学单词网站,该网站由十多个子网页构成im...

2020-04-18 16:04:51 3390

原创 sparkRDD

pythonfrom pyspark import SparkConf, SparkContext #创建SparkConf和SparkContextconf = SparkConf().setMaster("local").setAppName("lichao-wordcount")sc = SparkContext(conf=conf) #输入的数据data=["hello",...

2020-03-05 16:43:00 166

原创 scala

val 不可变var 可变建议使用val变量,因为spark复杂系统中,需要大量网络传输数据,若使用var会担心值被错误更改。val可自动识别类型也可自己定义类型申明多个变量...

2020-02-09 15:18:45 326

原创 Hive使用总结

为分隔符为逗号的txt转成表1.txt文件内容如下步骤一:create table t_t2(id int,name string,age int) row format delimited fields terminated by ',';如下:移入文件到hadoop的t_t2中分区管理本地文件夹hivedata中有1.txt和2.txt1.txt的内容2.txt的内...

2020-02-04 12:19:58 216

原创 对象持久化

一、扁平文件1、文本文件二、pickle(用于python特有的类型和python的数据类型间进行转换)其可存储的类型所有python支持的原生类型:布尔值,整数,浮点数,复数,字符串,字节,None由任何原生类型组成的列表,元组,字典和集合函数,类,类的实例pickle默认操作二进制文件,使用文件函数的时候需要注意,否则出现 TypeErrorimport pickle...

2020-01-01 15:05:26 197

原创 unittest测试模块/异常处理/数值打印格式处理(如小数)/随机函数/日期及时间

一、unittest测试模块此小实验已经传至github,喜欢的朋友们给个star喔~总结setUp()函数:相当于定义的全局变量,里面变量对以下的函数都有效score是字典类型,传字典类型需要加**import unittestfrom test.Student import Student as Studentclass UnitTest_Student(unittest.Tes...

2019-12-31 14:20:50 368

原创 使用git将代码文件上传至github

第一步:建仓库创建成功如图所示二、下载并安装git成功的标志是任意右击文件夹,出现Git Bash Here。三、配置ssh.key右击需要上传的文件夹,点Git Bash Here。在git.bash控制台下输入:ssh-keygen -t rsa -C "your_email@youremail.com"回车之后会生成id_rsa打开id_rsa.pub文件,复制里面内容。...

2019-12-30 16:49:19 150

原创 python之继承

Person.pyimport datetimeclass Person: AllCount = 0 def __init__(self,number,name,sex,birthday): self.number = number self.name = name self.birthday = birthday ...

2019-12-30 16:12:00 146

原创 K近邻、朴素贝叶斯算法

K近邻K近邻算法详解机器学习:K-近邻算法(KNN)k近邻法及kd树K-近邻需要做标准化处理相似的样本,特征之间的值应该都是相近的K取值影响最终结果距离公式(欧式距离)两个样本,有三个特征,a(a1,a2,a3),b(b1,b2,b3),c(c1,c2,c3),d,e,f,g…其中a为未分类的,则:step 1:…之后,比较他们的大小step 2:选出距离最小的K个值s...

2019-12-22 14:16:50 523

原创 数据处理相关

数据集分为特征值和目标值由特征值得到目标值对特征值的处理为特征工程1、缺失值处理2、重复值的去重特征工程的意义:提高对未知数据的预测字典特征数据抽取对字符串转成数字的,机器学习算法只能理解 数字类型的类:sklearn.feature_extraction.DictVectorizer文本特征抽取类:sklearn.feature_extraction.text.CountVe...

2019-12-21 16:12:10 135

原创 python对文件及文件夹的操作

1、对单个文件夹里的文件的内容读取path = "F:\\pro\\4_2\\4"for dirpath, dirnames, filenames in os.walk(path): for filename in filenames: pa = os.path.join(path,filename) f1 = open(pa,'r')...

2019-07-31 15:19:39 641

原创 虚拟机的网络连不上网的问题

解决CentOS7虚拟机无法上网并设置CentOS7虚拟机使用静态IP上网1、确保vi /etc/sysconfig/network-scripts/ifcfg-eth02、打开虚拟机的 编辑--->虚拟网络编辑器3、打开本机确保此三个是运行中成功了!...

2019-07-21 09:16:25 142

原创 关于zookeeper

zookeeper的作用1、一般情况下,当从机宕了一台,整个集群仍然可以使用,当主机宕机了,整个集群便不可用了,zookeeper可以解决当主机宕机的时候,其他机可以选举产生主机三台电脑装了zookeerperhadoop11hadoop12hadoop13主机宕了,其他两台产生一个主机启动zookeeper,在hadoop14上启动spark在hadoop16上运行spark的...

2019-07-17 15:05:52 155

原创 HIVE配置总结

一、客户端与服务器1、前台运行(服务端)执行某个hive处于bin/hiveserver2(客户端)另一个电脑 !connect jdbc:hive2://hadoop15:10000 (hadoop15是传集群的那台计算机)2、后台运行nohub bin/hiveserver2 1>/dev/null 2>&1 & (1代表正确的,2代表错误。信息都写...

2019-07-16 18:05:04 228

原创 虚拟机中克隆linux操作系统及linux命令行总结

一、克隆虚拟机中的linux操作系统后,需要1、修改网卡:vim /etc/udev/rules.d/70-persistent-net.rules2、修改ip地址删红框内地址,修改ip地址3、修改主机名4、重启5、修改域名打开本机电脑‘添加linux里的ip地址及主机名(已经有了ip地址,可以通过远程访问软件访问了)6、linux添加主机和ip地址的映射vi /...

2019-07-13 14:28:07 653

原创 mapreduce总结(持续更新)

1、map阶段是对数据进行提取,输出迭代器的类型,如果reduce阶段有对象的类型,可根据迭代器里取值,创建对象赋值。2、reduce进行聚合典型例子,分组将某一列排序3、序列化时已经将数据存储了,在括号外部创建对象,括号内部赋值是完全可以的。关键是context.write已经将赋予的值进行了存储。4、...

2019-07-06 19:05:16 260

原创 创建maven的hadoop项目的步骤及eclipse 的java快捷键

1、打开eclipse2、选择File–>New–>other3、4、5、添加依赖打开pom.xml<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://...

2019-07-03 22:42:35 720 2

原创 java之ArrayList、HashSet 、HashMap知识点

参考代码如下User类package num1;public class User { private String id; private String name; private String password; private String phone; private int age; private int salary; publ...

2019-07-03 22:06:15 151

原创 单例模式、锁

缺点:每次访问都要创建对象,获取里面信息单例模式:但创建对象时,一次创建对象获取信息,就已经知道里面信息,以后就不用创建对象(其他类有调用此类情况)。饿汉式单例模式:缺点:一次都没有调用,也会触发,如果整个生命周期都不用调此类时,浪费资源。懒汉式单例模式:代码是线程代码时,第一个线程创建对象调用此类获取信息,未执行完,没有获取到信息。第二个线程就会创建对象获取信息。引入锁关于...

2019-07-02 20:14:01 408

原创 关于HDFS的总结

1、导包,将从官网中下载的解压,提取里面的jar导入eclipse,并Add to bulid path。2、api文档3、结果4、在客户端设定的参数只对客户端的传递起作用4、启动一台linux时,无任何进程,向指定集群传数据时,可修改core.xml文件...

2019-07-01 20:47:15 293

原创 java基础

从现在开始为学习分布式编程打下基础,我将花几天的时间来学习java和scala语言,后来就要重点学习spark编程了。每次的总结以博客的形式储存,为了监督自己,也为了和大家分享。一、构造函数构造函数注意以下两点:1、未申明构造函数时,构造函数默认为无参构造函数2、当申明了有参构造函数时,未申明无参的构造函数时,此时无参函数不能使用。package class_stude...

2019-06-23 16:50:09 141

原创 hadoop+scala+spark搭建的血泪教训

一年前就已经搭建好了,忙于学习其他方面的,hadoop和spark的学习就耽误了,昨天开始重新学习。原本搭建的环境是完全没有问题的,但是spark总是启动不起来。本弱小女子熬到晚上1点40外加早上又找了三个小时,才找到这个弱智错误,暗暗骂了自己好多遍傻逼。运行:./bin/run-example org.apache.spark.examples.SparkPi 是没有问题的因为环境变量里配上...

2019-06-21 15:02:24 2192 4

原创 BP神经网络算法

BP神经网络算法本文根据. 大佬博客推导出公式及表达的个人见解1.1直接调包的过程matlab的神经网络工具箱功能强大。1.2强推过程实验的目的:强推BP神经网络算法,并且增加了噪声数据,增加了误差分析和图形效果,采用数据集来验证效果和预测未来的情况。1.2.1数据加载和网络节点确定本人在写python代码时,数据的加载未命名函数,直接以list数组形式来确定1990——2009的数...

2019-06-20 16:02:44 3260 1

原创 数据挖掘之缺失数据缺失的各种插补算法比较

0前言实验要求:完成插补实验实验工具: 1、excel表格2、记事本txt文件3.、pycharm4、JBPCAfill.jar包1前期处理1.2删除特殊字符表格中含有None,#NULL!的字符,表示数据缺失,在表格统计数据个数时,字符None,#NULL!影响统计的数量,所以这些字符需要删除。代码在first包里的Prepare.py。思路:两个for循环对行和列进行扫描,遇...

2019-02-08 21:23:01 9253 11

原创 第七届蓝桥杯大赛个人赛省赛(软件类)A组第六题

寒假作业现在小学的数学题目也不是那么好玩的。看看这个寒假作业:□ + □ = □□ - □ = □□ × □ = □□ ÷ □ = □每个方块代表1~13中的某一个数字,但不能重复。比如:6 + 7 = 139 - 8 = 13 * 4 = 1210 / 2 = 5以及:7 + 6 = 139 - 8 = 13 * 4 = 1210 / 2 = 5就...

2018-12-21 10:03:52 217

原创 第七届蓝桥杯大赛个人赛省赛(软件类)A组第三题

方格填数如下的10个格子±-±-±-+| | | |±-±-±-±-+| | | | |±-±-±-±-+| | | |±-±-±-+(如果显示有问题,也可以参看【图1.jpg】)填入0~9的数字。要求:连续的两个数字不能相邻。(左右、上下、对角都算相邻)一共有多少种可能的填数方案?请填写表示方案数目的整数。代码:思路:(暴力解决)#inclu...

2018-12-20 13:16:46 221

原创 第七届蓝桥杯大赛个人赛省赛(软件类)A组第二题

生日蜡烛某君从某年开始每年都举办一次生日party,并且每次都要吹熄与年龄相同根数的蜡烛。现在算起来,他一共吹熄了236根蜡烛。请问,他从多少岁开始过生日party的?请填写他开始过生日party的年龄数。代码:#include &lt;iostream&gt;using namespace std;int main(int argc, char** argv) {int sta...

2018-12-19 23:36:26 193

原创 第七届蓝桥杯大赛个人赛省赛(软件类)A组第一题

某君新认识一网友。当问及年龄时,他的网友说:“我的年龄是个2位数,我比儿子大27岁,如果把我的年龄的两位数字交换位置,刚好就是我儿子的年龄”请你计算:网友的年龄一共有多少种可能情况?代码:#include &amp;lt;iostream&amp;gt;using namespace std;int main(int argc, char** argv) { int x,y,z,i,j,k,n=...

2018-12-19 23:07:02 150

原创 批量下载数据集

在一个网页上下载如图所示的分散的文件,此网站最起码有好几百个这样的文件,如果通过单击方式,得点几百次呢!python2代码循环下载,试了一下,此代码只适合http协议的,如果是ftp协议就不好使了。import reimport sysimport urllibdef getHtml(url): page = urllib.urlopen(url) html = pag...

2018-12-12 10:56:14 1992

原创 多元线性回归分析练习题

表 11.2 数据python代码import pandas as pdimport statsmodels.api as smex922 = pd.read_csv('D:ex922.csv',encoding='gbk')values = ['人口数量X1','蔬菜价销量X2','瓜果人均销量X3','副食人均销量X4','粮食人均销量X5']factors = ['X1','...

2018-12-07 12:53:12 15180 2

原创 数据挖掘之回归分析

本博客根据非常好的excel资料而编写,使用python语言操作,预计使用一周的时间更新完成。需要《非常好的excel资料》word文档,欢迎发邮件给1982500361@qq.com,免费发放。这篇博客对应《非常好的excel资料》里的第6章节。1.1 一元线性回归分析①数据python操作import pandas as pdex61=pd.read_csv('D:\ins61.c...

2018-12-07 12:37:03 2985

原创 数据挖掘之方差分析实验

本博客根据非常好的excel资料而编写,使用python语言操作,预计使用一周的时间更新完成。需要《非常好的excel资料》word文档,欢迎发邮件给1982500361@qq.com,免费发放。这篇博客对应《非常好的excel资料》里的第5章节。1.1 单因素方差分析数据Python代码如下:import pandas as pdfrom scipy import statsarg...

2018-12-06 15:12:34 1091

原创 假设检验实验和拟合优度检验练习题

本博客根据非常好的excel资料而编写,使用python语言操作,预计使用一周的时间更新完成。需要《非常好的excel资料》word文档,欢迎发邮件给1982500361@qq.com,免费发放。这篇博客对应《非常好的excel资料》里的第2章节里的练习题。1.1 练习题1、①分析:单个正态分布,方差已知时μ的U检验H_0:u=34 , H_1:u≠34②数据③Python代码如下w...

2018-12-03 22:50:13 2928

原创 数据挖掘之拟合优度检验

本博客根据非常好的excel资料而编写,使用python语言操作,预计使用一周的时间更新完成。需要《非常好的excel资料》word文档,欢迎发邮件给1982500361@qq.com,免费发放。这篇博客对应《非常好的excel资料》里的第4章节。自由度v=(行数-1)(列数-1)① 数据②Python代码如下def lilunpinshu(n,m,v,pingshu,qujiandua...

2018-11-28 14:01:52 5141 1

原创 数据挖掘基础之统计学的假设检验实验

本博客根据非常好的excel资料而编写,使用python语言操作,预计使用一周的时间更新完成。需要《非常好的excel资料》word文档,欢迎发邮件给1982500361@qq.com,免费发放。这篇博客对应《非常好的excel资料》里的第2章节的练习题。1.假设检验实验1.1 单个正态总体均值μ的检验1.1.1 方差已知时μ的U检验①题目及数据外地一良种作物,其1000m2产量(单位...

2018-11-26 13:33:22 1113

原创 区间估计的练习题

本博客根据非常好的excel资料而编写,使用python语言操作,预计使用一周的时间更新完成。需要《非常好的excel资料》word文档,欢迎发邮件给1982500361@qq.com,免费发放。这篇博客对应《非常好的excel资料》里的第2章节的练习题。4.6 练习题(通过调用以上函数就可解决)题目:某类树种的树高符合正态分布,随机抽60个样本数,试以0.95的可靠性,对于该林地上全部林木...

2018-11-25 18:38:10 3434

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除