超全!推荐 70 个常用的数据分析网址

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

今天给大家分享的这篇文章,更像是一份数据分析常用网站字典

一共 70 个,包含:可视化、词频词云、PPT 模板等,面面俱到,值得收藏!

数据可视化工具

百度EChartshttp://echarts.baidu.com/
Cytoscapehttp://www.cytoscape.org/
图表秀http://www.tubiaoxiu.com/
数据观http://shujuguan.cn/
微博足迹可视化http://vis.pku.edu.cn/weibova/weibogeo_footprint/index.html
BDP个人版https://me.bdp.cn/home.html
魔镜http://www.moojnn.com/
图表秀https://www.tubiaoxiu.com
文图https://www.wentu.io
百度图说http://tushuo.baidu.com
infogr.amhttps://infogr.am/
Infographichttps://venngage.com
visuallyhttps://visual.ly
Piktocharthttps://piktochart.com
slideshttps://slides.com
声享https://ppt.baomitu.com
AntVhttps://antv.alipay.com/index.html

词频分析工具、词云

Rosthttp://www.cncrk.com/downinfo/54638.html
图悦http://www.picdata.cn/
语义分析系统http://ictclas.nlpir.org/nlpir/
Tagulhttps://tagul.com/
腾讯文智http://nlp.qq.com/semantic.cgi
Tagxedo词云http://www.tagxedo.com/

舆情分析工具

清博舆情系统http://yuqing.gsdata.cn/
云相http://www.weidata.cn/

PPT模板工具

我图网http://so.ooopic.com/
51PPT模板http://www.51pptmoban.com/ppt/
无忧PPThttp://www.51ppt.com.cn/
第1PPThttp://www.1ppt.com/
站长之家http://sc.chinaz.com/ppt/
设计师网址导航http://www.userinterface.com.cn/
HiPPTer -  汇总PPT设计的酷站&神器http://www.hippter.com
微软的官方网站——OFFICEPlus:http://www.officeplus.cn/
国货精品WPS公司下的稻壳儿http://www.docer.com/
演界网http://www.yanj.cn/

互联网趋势分析工具

微博指数http://data.weibo.com/index
百度指数http://index.baidu.com/
好搜指数http://index.so.com/#index
搜狗指数http://zhishu.sogou.com/
百度预测http://trends.baidu.com/

在线调查工具

腾讯问卷调查http://wj.qq.com/
麦客http://www.mikecrm.com/
ICTRhttp://cn2.ictr.cn/
问道网http://www.askform.cn/
问卷星http://www.sojump.com/
调查派http://www.diaochapai.com/
问卷网http://www.wenjuan.com/
SurveyMonkeyhttps://zh.surveymonkey.com/

网站分析监测工具

H5传播分析工具http://chuanbo.datastory.com.cn/
百度统计http://tongji.baidu.com/web/welcome/login
腾讯云分析http://mta.qq.com/
51.lahttp://www.51.la/

社交媒体监测工具

孔明社会化媒体管理http://www.kmsocial.cn/
企业微博管理中心http://e.weibo.com/
知乎用户深度分析http://www.kanzhihu.com/useranalysi

其他数据网站

数据分析网http://www.afenxi.com
媒体微博排行榜http://v6.bang.weibo.com/xmt
友盟http://www.umeng.com/
中国新闻地图http://vis.360.cn/open/cnnews/
中国票房榜http://www.cbooo.cn/
收视率排行http://www.tvtv.hk/archives/category/tv
农业大数据云平台http://www.dataagri.com/agriculture/gis.action
房价指数http://industry.fang.com/data/datacenter.aspx
中国统计局http://data.stats.gov.cn/
中国主要城市拥堵排名http://report.amap.com/traffic/
中国综合社会调查http://www.chinagss.org/
中国P2P网贷指数http://www.p2p001.com/wdzs/wdzs_p2pline.html
Alexahttp://www.alexa.com/
易车汽车指数http://index.bitauto.com/
旅游预测http://trends.baidu.com/tour/

*声明:本文转自python编程学习圈,版权归原作者所有,如来源信息有误或侵犯权益,请联系我们删除或授权事宜。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

END



以上就是“超全!推荐 70 个常用的数据分析网址”的全部内容,希望对你有所帮助。
​
​**关于Python技术储备**

学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助!

**一、Python所有方向的学习路线**

Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

![在这里插入图片描述](https://img-blog.csdnimg.cn/4fc8244a2ce84aa7b2055590d614e00f.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAUHl0aG9u546L6aWx6aWx,size_20,color_FFFFFF,t_70,g_se,x_16#pic_center)

**二、Python必备开发工具**

![img](https://img-blog.csdnimg.cn/f22c25db2ad7410888ed8d243b19aecb.png)



**三、Python视频合集**

观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

![img](https://img-blog.csdnimg.cn/img_convert/a5372451ed5bd21ea53c69aed75dc176.png)

**四、实战案例**

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

![img](https://img-blog.csdnimg.cn/img_convert/8b2d5abeb48067841785b84bdf1e87a0.png)

**五、Python练习题**

检查学习结果。

![img](https://img-blog.csdnimg.cn/img_convert/85eff90bbfa0dbf6385567a4e210b70a.png)

**六、面试资料**

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

![img](https://img-blog.csdnimg.cn/img_convert/3934c5902600982ce502e3557018e1fc.png)

 最后祝大家天天进步!!

**上面这份完整版的Python全套学习资料已经上传至CSDN官方,朋友如果需要可以直接微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。**
<img src="https://img-blog.csdnimg.cn/img_convert/98e059d28fcd33c94e299dabac892682.jpeg" style="margin: auto" />
好的,我会用3000字来为您详细阐述如何使用泰坦尼克号数据集进行建模分析。 一、数据集介绍 泰坦尼克号数据集是一个经典的数据集,它记录了1912年泰坦尼克号沉船事故中的乘客信息,包括乘客的个人信息、船舱信息、票务信息和生存情况等。该数据集包含了891条记录和12个特征列,其中“Survived”列是目标列,表示乘客是否生还,取值为0和1。 二、数据预处理 在进行建模分析之前,我们需要对数据进行预处理,包括缺失值处理、特征变换和特征选择等。 1. 缺失值处理 首先,我们需要处理数据中的缺失值。在泰坦尼克号数据集中,缺失值主要分布在“Age”、“Cabin”和“Embarked”三列中。对于“Age”列,我们可以使用中位数来填充缺失值;对于“Cabin”列,由于缺失值太多,我们可以将其删除;对于“Embarked”列,由于只有两个缺失值,我们可以使用众数来填充。 2. 特征变换 接着,我们需要对类别型的特征进行变换,将其转换为数值型特征。在泰坦尼克号数据集中,类别型的特征主要包括“Sex”和“Embarked”两列。我们可以使用pandas库中的get_dummies()函数来进行One-Hot编码,将这两列转换为数值型特征。 3. 特征选择 最后,我们需要对特征进行选择,选择最优的特征子集,以提高模型的预测性能。在泰坦尼克号数据集中,不同特征的重要性不同,我们需要使用特征选择方法来选择最优的特征子集。在这里,我们可以使用sklearn库中的SelectKBest和chi2函数来选择最优的K个特征。 三、建模分析 在进行建模分析之前,我们需要将数据集分成训练集和测试集两部分。在泰坦尼克号数据集中,我们可以将数据集按照7:3的比例进行划分,其中70%的数据作为训练集,30%的数据作为测试集。 1. 决策树 决策树是一种基于树结构的分类算法,它可以根据特征的不同取值来进行分类。我们可以使用sklearn库中的DecisionTreeClassifier来构建决策树模型。在构建模型之前,我们需要确定决策树的最大深度和最小叶子节点数量等参数。在这里,我们可以使用网格搜索法来确定最优的参数组合。网格搜索法可以通过对不同参数组合的交叉验证来确定最优的参数组合。 代码如下: ```python from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import GridSearchCV # 构建决策树模型 dt = DecisionTreeClassifier() # 设置参数范围 param_grid = {'max_depth': [3, 4, 5, 6, 7, 8], 'min_samples_leaf': [2, 3, 4, 5, 6, 7, 8, 9, 10]} # 进行网格搜索 grid_search = GridSearchCV(dt, param_grid, cv=10) grid_search.fit(X_train, y_train) # 输出最优的参数组合 print(grid_search.best_params_) ``` 2. 随机森林 随机森林是一种基于决策树的集成学习算法,它可以通过对多个决策树的预测结果进行投票来进行分类。我们可以使用sklearn库中的RandomForestClassifier来构建随机森林模型。在构建模型之前,我们需要确定随机森林的决策树数量和最小叶子节点数量等参数。同样地,我们可以使用网格搜索法来确定最优的参数组合。 代码如下: ```python from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import GridSearchCV # 构建随机森林模型 rf = RandomForestClassifier() # 设置参数范围 param_grid = {'n_estimators': [100, 200, 300, 400, 500], 'min_samples_leaf': [2, 3, 4, 5, 6, 7, 8, 9, 10]} # 进行网格搜索 grid_search = GridSearchCV(rf, param_grid, cv=10) grid_search.fit(X_train, y_train) # 输出最优的参数组合 print(grid_search.best_params_) ``` 3. 支持向量机 支持向量机是一种基于最大间隔分类的算法,它可以通过找到最优的超平面来进行分类。我们可以使用sklearn库中的SVC来构建支持向量机模型。在构建模型之前,我们需要确定支持向量机的核函数和惩罚参数等参数。同样地,我们可以使用网格搜索法来确定最优的参数组合。 代码如下: ```python from sklearn.svm import SVC from sklearn.model_selection import GridSearchCV # 构建支持向量机模型 svm = SVC() # 设置参数范围 param_grid = {'kernel': ['linear', 'poly', 'rbf', 'sigmoid'], 'C': [0.1, 1, 10, 100, 1000]} # 进行网格搜索 grid_search = GridSearchCV(svm, param_grid, cv=10) grid_search.fit(X_train, y_train) # 输出最优的参数组合 print(grid_search.best_params_) ``` 4. 神经网络 神经网络是一种基于人工神经元的模型,它可以通过多层神经元的组合来进行分类。我们可以使用Keras库中的Sequential和Dense函数来构建神经网络模型。在构建模型之前,我们需要确定神经网络的层数和节点数量等参数。同样地,我们可以使用网格搜索法来确定最优的参数组合。 代码如下: ```python from keras.models import Sequential from keras.layers import Dense from keras.wrappers.scikit_learn import KerasClassifier from sklearn.model_selection import GridSearchCV # 构建神经网络模型 def create_model(): model = Sequential() model.add(Dense(12, input_dim=8, activation='relu')) model.add(Dense(8, activation='relu')) model.add(Dense(1, activation='sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) return model # 封装为sklearn的模型 model = KerasClassifier(build_fn=create_model, verbose=0) # 设置参数范围 param_grid = {'batch_size': [10, 20, 30, 40, 50], 'epochs': [10, 50, 100]} # 进行网格搜索 grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=10) grid_search.fit(X_train, y_train) # 输出最优的参数组合 print(grid_search.best_params_) ``` 四、模型评估 在确定了最优的模型和参数组合之后,我们需要对模型进行评估,以确定其预测性能。 1. 交叉验证 交叉验证是一种常用的模型评估方法,它可以通过将数据集分成多个子集来进行模型评估。在泰坦尼克号数据集中,我们可以使用sklearn库中的cross_val_score函数来进行交叉验证。在交叉验证中,我们通常使用10折交叉验证,即将数据集分成10个子集,每次用其中9个子集作为训练集,1个子集作为测试集,重复10次,最后对结果进行平均。 代码如下: ```python from sklearn.model_selection import cross_val_score # 使用最优的模型和参数组合进行交叉验证 model = RandomForestClassifier(n_estimators=500, min_samples_leaf=2) scores = cross_val_score(model, X_train, y_train, cv=10) # 输出交叉验证的准确率 print('Accuracy: %.2f%% (%.2f%%)' % (scores.mean()*100, scores.std()*100)) ``` 2. 模型比较 最后,我们需要比较不同模型的预测性能,以确定哪个模型的预测性能最优。在泰坦尼克号数据集中,我们可以使用准确率、精确率、召回率和F1值等指标来比较不同模型的预测性能。准确率表示分类正确的样本占总样本数的比例,精确率表示预测为正样本的样本中实际为正样本的比例,召回率表示实际为正样本的样本中预测为正样本的比例,F1值是精确率和召回率的调和平均数。 代码如下: ```python from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score # 使用最优的模型和参数组合进行预测 model = RandomForestClassifier(n_estimators=500, min_samples_leaf=2) model.fit(X_train, y_train) y_pred = model.predict(X_test) # 输出准确率、精确率、召回率和F1值等指标 print('Accuracy: %.2f%%' % (accuracy_score(y_test, y_pred)*100)) print('Precision: %.2f%%' % (precision_score(y_test, y_pred)*100)) print('Recall: %.2f%%' % (recall_score(y_test, y_pred)*100)) print('F1: %.2f%%' % (f1_score(y_test, y_pred)*100)) ``` 五、总结 在本文中,我们使用泰坦尼克号数据集进行建模分析,包括数据预处理、特征选择和建模分析等。我们使用了决策树、随机森林、支持向量机和神经网络等机器学习算法进行建模分析,并使用网格搜索法确定最优的参数组合。最后,我们对模型进行了评估,以确定不同模型的预测性能。建议读者在实际使用中,根据实际情况选择不同的模型和参数组合,并注意交叉验证和模型比较等方面。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值