![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据科学
文章平均质量分 69
数据科学
swy_swy_swy
这个作者很懒,什么都没留下…
展开
-
数据科学【九】:SVD(二)
SVD降维, tf-idf特征,文本分析原创 2022-06-02 23:24:37 · 160 阅读 · 1 评论 -
数据科学【八】:SVD(一)
数据科学【八】:SVD(一) 本文旨在给出SVD的使用方法。具体原理或SVD本身的代码实现请参考其他资料。 SVD主要应用于数据特征提取,数据压缩等。 数据准备 将mnist存入csv 使用fetch_openml可以获得常用数据集,包括mnist_784。 import matplotlib.pyplot as plt from sklearn.datasets import fetch_openml X, y = fetch_openml(name="mnist_784", version=1, r原创 2022-05-30 21:13:48 · 238 阅读 · 0 评论 -
数据科学【七】:聚类(三)
数据科学【七】:聚类(三) 本文数据为CIFAR-10 dataset 加载数据集 打开“batch_1”, 并随机显示一个图像: import pickle import numpy as np import random with open("data_batch_1", 'rb') as f_batch: data_dict = pickle.load(f_batch, encoding='bytes') image_datas = data_dict[b'data'] random_id原创 2022-05-24 09:07:16 · 326 阅读 · 0 评论 -
数据科学【六】:聚类(二)
数据科学【六】:聚类(二) 本文数据采用mnist dataset。 获得聚类中心点 使用cluster_centers_即可。 示例:将mnist数据集分为十个聚类,并绘制各个中心点。 import pandas as pd import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.datasets import load_digits mnist = load_digits() data_a =原创 2022-05-24 02:26:02 · 537 阅读 · 0 评论 -
数据科学【五】:聚类(一)
数据科学【五】:聚类(一) 本文代码基于数据科学【四】:基本可视化(二) 。 Kmeans 聚类 示例:使用longitude, latitude, price, number_of_reviews四个特征对房产进行聚类,并将聚类在地图上可视化。不同聚类使用不同颜色显示。 from sklearn.cluster import KMeans df_h = airbnb_df[['latitude', 'longitude', 'price','number_of_reviews']] data_h = d原创 2022-05-22 21:19:50 · 547 阅读 · 0 评论 -
数据科学【四】:基本可视化(二)
数据科学【四】:基本可视化(二) 本次数据使用爱彼迎租房数据(Airbnb dataset)。我们只采用listing.csv, 可以直接从这里下载。 热度图绘制 使用Folium包绘制热度图。由于它集成了leaflet,查看其绘制的图像可能需要翻墙。 Folium安装 pip install folium 使用folium在地图上绘制热度图 示例:在纽约地图上绘制各地区(各经纬度)房价平均值 import folium from folium.plugins import HeatMap import原创 2022-05-20 09:08:37 · 720 阅读 · 0 评论 -
数据科学【三】:dataframe基本操作(二)
数据科学【三】:dataframe基本操作(二) google api 使用google book api (https://developers.google.com/books/docs/overview)获得数据。也就是拼接url查询信息。可能需要翻墙。 示例:查询相应主体的书籍 注意:json.loads()返回的是json对象 import requests import json """ Google Books Api See: https://developers.goo原创 2022-05-16 22:00:36 · 335 阅读 · 0 评论 -
数据科学【二】基本可视化(一)
数据科学【二】基本可视化 本文章中示例代码在第一篇(https://blog.csdn.net/swy_swy_swy/article/details/124763216)的基础上实现。 条形图 使用barh函数 绘制是否存活的平均年龄 sur_avg = df[df.Survived==1]['Age'].mean() dead_avg = df[df.Survived==0]['Age'].mean() from matplotlib import pyplot as plt import matpl原创 2022-05-15 00:39:05 · 129 阅读 · 0 评论 -
数据科学【一】:dataframe基本操作(一)
数据科学【一】:dataframe基本操作(一) 数据准备 我们采用祖传泰坦尼克数据集(https://www.kaggle.com/c/titanic/data) 读入文件 使用read_csv函数读入文件 import pandas as pd df = pd.DataFrame(pd.read_csv("train.csv")) df.describe() PassengerId Survived Pclass A原创 2022-05-14 08:40:41 · 402 阅读 · 1 评论