Python程式與數據資料分析1

“Talk is cheap. Show me the code.”
― Linus Torvalds

老子第41章
上德若谷
大白若辱
大方無隅
大器晚成
大音希聲
大象無形
道隱無名

拳打千遍, 身法自然

本系列文章之連結

  • Python程式與數據資料分析1 link

  • Python程式與數據資料分析1.1 Kaggle站免費教學的路徑圖 link

  • Python 與數據資料分析2-資料視覺化-Matplotlib.pyplot 入門 link

  • Python 與數據資料分析3.1-資料視覺化-基本圖表類型 link

  • Python 與數據資料分析3.2-資料視覺化-從 seabon 的函數分類來看 link

  • Python與資料分析3.3-資料視覺化-seaborn 補充 link

  • Python與資料分析4-資料視覺化-鳶尾花 link

  • Python與資料分析 5-入門級競賽分析-鐵達尼號 link

  • Python與資料分析 6-入門級競賽分析-房價预测 link



110_1_高中週期性課程: Python程式入門與資料分析初探

預定之進度:

  • Python與資料分析1-與資料分析相關之Python, NumPy, Pandas入門

  • Python 與數據資料分析2-資料視覺化-Matplotlib.pyplot 入門 link

  • Python 與數據資料分析3-資料視覺化-基本圖表類型 link

    • Sec 2.5 數據可視化的基本圖表
      2.5.1 原始數據繪圖
      2.5.2 簡單統計值描繪
      2.5.3 多視圖協調關聯
      ch 3 時間數據可視化
      ch 4 比例數據可視化
      ch 5 關係數據可視化
      ch 6 文本數據可視化
      ch 7 複雜數據可視化
      ch 8 交互式數據可視化

Ref: 姜楓, 許桂秋, 大數據可視化技術, Sec 2.5, 人民郵電, 2019.

3.1 數據的直觀印象
3.2 如何獲得單變量特徵的直觀印象
3.3 如何獲得多變量聯合分布的直觀印象
3.4 如何獲得變量間相關性的直觀印象
Ref 薛薇, R 語言數據挖掘, 電子工業.

Ref: Data Visualization 資料視覺化教學, Kaggle 的網頁上的教學, https://www.kaggle.com/learn/data-visualization link

  • Python與資料分析4-例子-資料視覺化-鳶尾花, 鐵達尼號
  • Python與資料分析5-監督學習-回歸分析
  • Python與資料分析6-監督學習-決策樹
  • Python與資料分析7-非監督學習-K-means

本系列目錄

  • Python與資料分析1-與資料分析相關之Python, NumPy, Pandas入門

  • Python 與數據資料分析2-資料視覺化-Matplotlib.pyplot 入門 link

  • Python 與數據資料分析3-資料視覺化-基本圖表類型 link

  • Python與資料分析4-例子-資料視覺化-鳶尾花與鐵達尼號

  • Python與資料分析5-監督學習-回歸分析

  • Python與資料分析6-監督學習-決策樹

  • Python與資料分析7-非監督學習-K-means

資料分析的學習過程

在剛學資料分析時, 會被眼花撩亂的圖表及各種花俏的呈現方式弄得見樹不見林, 抓不到適當的起始之入口及學習路徑, 且網路上更會參雜進各種機器學習, 人工智能, 大數據等相關的學習路徑, 讓人莫衷一是, 更增焦慮感.

其實機器學習, 人工智能, 大數據跟資料分析有關, 但是都不是資料分析, 資料分析只是很基本的, 例如從全班的微積分成績, 分析同學學習微積分的狀況, 從大學入學名單及新生個人資料分析本屆招生狀況, 進而推估下一屆新生之潛在落點, 當資料量很大, 大到類似亞馬遜書店這樣的客戶資料, 就叫做大數據, 如果想要讓分析流程形成自動化, 就進入
機器學習與人工智能的領域.

一開始不用好高騖遠,

  • 可以先把基本的各種統計圖表及視覺化的方式作一全面的了解,
  • 利用 Kaggle 站上很多優秀的例子及講義, 也是照著走, 邊模仿邊學, 全盤照著走一遍.
    例如, Kaggle 的網頁上的教學: Python教學 link
    鐵達尼號資料的分析的教學:
    Titanic Tutorial, https://www.kaggle.com/alexisbcook/titanic-tutorial link
    例如: 用鳶尾花的例子展示如何以Python進行資料視覺化的初步分析, Kaggle 此處的常被引用的教學: Data Visualization 資料視覺化教學, https://www.kaggle.com/learn/data-visualization link

後續的學習, 我們參考網路上報導許多位17歲之前就就自學, 到17歲成為 Kaggle Grand Master 的報導, 仔細梳理他們從對資料分析一片空白到成為頂尖高手的過程, 大致可以總結為

  • 再利用 Kaggle 站上的入門級的競賽例子, 逐步加深加廣, 所有參賽者的程式碼都是可以複製學習, 還有很多熱心網友的入門到進階的教學講義, 等於是一個匯聚很多高手的免費資料分析補習班:
    例如這篇文章
    Kaggle入门,看这一篇就够了 link
    介紹的三個入門級競賽例子:
    里面手把手的教了大家入門级的三个經典練習項目,供大家学習。
  1. Titanic(泰坦尼克之灾)
    中文教程: 机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾 https://blog.csdn.net/han_xiaoyang/article/details/49797143 link
    英文教程:An Interactive Data Science Tutorial-Based on the Titanic competition on Kaggle
    https://www.kaggle.com/helgejo/an-interactive-data-science-tutorial link

  2. House Prices: Advanced Regression Techniques(房价预测)
    中文教程:每日一课 Kaggle 练习讲解 https://zhuanlan.zhihu.com/p/74474886 link
    英文教程:How to get to TOP 25% with Simple Model using sklearn link

  3. Digital Recognition(数字识别)
    中文教程:大数据竞赛平台—Kaggle 入门 https://blog.csdn.net/u012162613/article/details/41929171 link
    英文教程:Interactive Intro to Dimensionality Reduction link

  • 再參加 Kaggle 站上的跟自己專業或能力較接近的競賽, 與各家交流學習(通常他們都會找到幾位網路上的夥伴一起參加競賽, 互相砥礪)

Ref:
高中生自學成為 Kaggle Master
17岁!Kaggle史上最年轻Grandmaster诞生:高中自学3年登顶, https://www.sohu.com/a/251612669_473283 link
This high school kid taught himself to be an AI wizard, https://mashable.com/article/16-year-old-ai-genius link
這個高中生僅靠在線學習成為Kaggle AI大牛,引起Google注意, 原文網址:https://kknews.cc/tech/bqme52m.html link

00后学霸获5金9银3铜,华人高中生在Kaggle取得大师称号!他是怎么做到的?| 独家专访, 作者:DeepTech深科技, 链接:https://xueqiu.com/5983518614/132545068 link

00后再夺冠!中国高中生10个月拿下Kaggle Master, https://posts.careerengine.us/p/5d2d2bd79aad47269c232d25 link

資料分析的流程圖

  • 我們借用網路上較簡單的一幅圖:

 張裕宇, 大數據分析架構及流程

Ref: 張裕宇, 大數據分析架構及流程, link

  • 或是

軟妹, 資料分析師必須掌握的6種方法論和8種思路

Ref: 軟妹, 資料分析師必須掌握的6種方法論和8種思路, https://www.finereport.com/tw/data-analysis/6-ways.html link

  • CRISP-DM 的流程
    共有 6 步:
  1. 了解業務的內容及目標 Business understanding
  2. 了解資料集 Data understanding
  3. 資料前置處理(資料清洗, 轉換等) Data preparation
  4. 建模 Modeling
  5. 評估模型 Evaluation
  6. 佈署 Deployment

資料採礦流程_CRISP-DM stands for cross-industry process for data mining
Ref: What is the CRISP-DM methodology? https://www.sv-europe.com/crisp-dm-methodology/ link

  • 數據資料的準備與處理, 可以再細分為清理, 轉換等:
    在这里插入图片描述

Ref: 一張圖解讀清楚:最完整的資料分析流程, https://medium.com/%E6%95%B8%E6%93%9A%E5%88%86%E6%9E%90%E9%82%A3%E4%BA%9B%E4%BA%8B/%E4%B8%80%E5%BC%B5%E5%9C%96%E8%A7%A3%E8%AE%80%E6%B8%85%E6%A5%9A-%E6%9C%80%E5%AE%8C%E6%95%B4%E7%9A%84%E8%B3%87%E6%96%99%E5%88%86%E6%9E%90%E6%B5%81%E7%A8%8B-b66befbe59c8 link

  • 較詳細的圖:
    在这里插入图片描述
    Ref: 資料建模講解和案例分析, https://www.itread01.com/content/1547057717.html link

人工智能 機器學習 類神經網路 深度學習之包含圖

我們在網路上常看到 資料分析, 人工智能, 機器學習, 類神經網路, 深度學習, 演化式計算, 智能計算, 商業智能, 柔性計算, 演算法等等,
這些主題, 會覺得類似, 但又不同, 底下我們先看一下 人工智能 機器學習 類神經網路 深度學習 的涵攝關係:
在这里插入图片描述

Ref: C站最全Python机器学习、深度学习库总结(内含大量示例,建议收藏), https://blog.csdn.net/LOVEmy134611/article/details/118761423 link.

資料分析 與 人工智能的關係, 可以視其交集是 機器學習, 而資料分析還是有很大一部分, 屬於前置處理階段, 含有較多的傳統統計分析及資料視覺化的部分, 是依賴工作人員的操作跟判斷, 無法完全自動化, 進入後段的處理, 才是, 較多機器學習的部分, 可視為人工智能的一部分, 機器學習是強調可以透過建立穩固的模型與適當演算法, 讓程序自動從資料中取的有價值的資訊, 故此部分可視為人工智能的一部分.

與資料分析相關之 Python, NumPy, Pandas, Matplotlib, seaborn 入門

Python安裝之後並沒有 NumPy, Pandas, 他們是額外加裝在 Python 上的程式庫,
Python, NumPy, Pandas 夠成資料分析所需的基本套件
(另外一個資料分析的有名程式語言是使用 R 語言),
所以 入門資料分析, 需先稍微了解一下 Python, NumPy, Pandas 等的語法指令,
但是可以把範圍最小化在只學資料分析要用到的最基本語法指令,
這也是本課程要介紹的, 只介紹資料分析要用到的最基本語法指令,
同學在入門後, 後續延伸的部分, 同學可以自己再自學擴展.

Python, NumPy, Pandas, Matplotlib, seaborn 的安裝或線上使用

  • 安裝Python
    請參考本人的另一篇
    https://blog.csdn.net/m0_47985483/article/details/109522800
    安裝Python 那節
    link

  • 安裝 NumPy, SciPy, Pandas, Matplotlib 等
    Python安裝之後並沒有 NumPy, SciPy, Pandas, Matplotlib 等, 他們是額外加裝在 Python 上的程式庫,
    在 Windows 下, 打開 “命令提示字元” 的視窗, 輸入

>> pip install numpy
>> pip install scipy
>> pip install pandas
>> pip install seaborn
等等

  • 或是使用 Anaconda, 安裝好之後, 最重要的程式庫都已裝好,
    Anaconda + Jupyter Notebook 會自動安裝好所需的科學計算或大數據的程式庫 (or Anaconda + Spyder or Anaconda + PyCharm 等),

  • 線上使用可以用 Google Colab, 也會自動安裝好所需的科學計算或大數據的程式庫.

Python 入門

Python 的基本指令與最基本的用法, 請參考本人另一篇:
從turtle海龜動畫 學習 Python - 高中彈性課程系列 3 烏龜繪圖 所需之Python基礎, https://blog.csdn.net/m0_47985483/article/details/109522858?spm=1001.2014.3001.5501 link

NumPy 入門

請參考本人的文章:
用 Python+Numpy+scipy 執行 Matlab 的矩陣計算 2 產生 numpy 的 數組, 矩陣點乘 等,
https://blog.csdn.net/m0_47985483/article/details/111745673, link

Matplotlib 入門

請參考作者下一篇: Python與資料分析2-資料視覺化-基本圖表類型-Matplotlib, seaborn, link

Pandas 入門

Pandas 的資料型態主要有 1D 的 Series, 及2D 的 DataFrame, 在處理資料庫相關的資料, 使用Pandas 的資料型態, 會比直接操作 NumPy 的 array 或 matrix 更方便.

  • Pandas 入門 的說明, 可以看 Kaggle 上的網頁講義, 或搜尋網路上的網誌也是滿山滿谷, https://www.kaggle.com/learn/pandas link.
  • 完整的 pandas 的指令可以查官網:
    https://pandas.pydata.org/docs/reference/index.html link

seaborn 入門

用 Matplotlib 會太精細繁瑣, 大多數時候統計繪圖可以使用 seaborn, 減輕初學的困難.

“Seaborn其实是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn就能做出很具有吸引力的图,而使用matplotlib能制作具有更多特色的图。应该把Seaborn视为matplotlib的补充,而不是替代物。
seaborns是针对统计绘图的,方便啊。”

seaborn 入門 的說明, 可以看 Kaggle 上的網頁講義, 或搜尋網路上的網誌也是滿山滿谷,
https://www.kaggle.com/learn/data-visualization link

Ref: seaborn 的詳細介紹可以參考此篇: herr_kun, python-seaborn画图-(matploytlib)更高级的数据绘图工具, https://blog.csdn.net/herr_kun/article/details/87697639?utm_term=python%E7%94%BB%E5%9B%BE%E5%BA%93seaborn&utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2allsobaiduweb~default-6-87697639&spm=3001.4430 link

Reference

高中生自學成為 Kaggle Master

  • 17岁!Kaggle史上最年轻Grandmaster诞生:高中自学3年登顶, https://www.sohu.com/a/251612669_473283 link,
    This high school kid taught himself to be an AI wizard, https://mashable.com/article/16-year-old-ai-genius link,
    這個高中生僅靠在線學習成為Kaggle AI大牛,引起Google注意, 原文網址:https://kknews.cc/tech/bqme52m.html link.

  • 00后学霸获5金9银3铜,华人高中生在Kaggle取得大师称号!他是怎么做到的?| 独家专访, 作者:DeepTech深科技, 链接:https://xueqiu.com/5983518614/132545068 link

  • 00后再夺冠!中国高中生10个月拿下Kaggle Master, https://posts.careerengine.us/p/5d2d2bd79aad47269c232d25 link

流程圖:

  • 流程: 張裕宇, 大數據分析架構及流程, https://www.aikernels.com/%E5%A4%A7%E6%95%B8%E6%93%9A%E5%88%86%E6%9E%90%E6%9E%B6%E6%A7%8B%E5%8F%8A%E6%B5%81%E7%A8%8B/ link

  • 軟妹, 資料分析師必須掌握的6種方法論和8種思路, https://www.finereport.com/tw/data-analysis/6-ways.html link

  • 一張圖解讀清楚:最完整的資料分析流程, https://medium.com/%E6%95%B8%E6%93%9A%E5%88%86%E6%9E%90%E9%82%A3%E4%BA%9B%E4%BA%8B/%E4%B8%80%E5%BC%B5%E5%9C%96%E8%A7%A3%E8%AE%80%E6%B8%85%E6%A5%9A-%E6%9C%80%E5%AE%8C%E6%95%B4%E7%9A%84%E8%B3%87%E6%96%99%E5%88%86%E6%9E%90%E6%B5%81%E7%A8%8B-b66befbe59c8 link

  • 資料建模講解和案例分析, https://www.itread01.com/content/1547057717.html link

  • C站最全Python机器学习、深度学习库总结(内含大量示例,建议收藏)
    https://blog.csdn.net/LOVEmy134611/article/details/118761423 link.

  • What is the CRISP-DM methodology? https://www.sv-europe.com/crisp-dm-methodology/ link

安裝Python等:

  • 安裝Python: 請參考本人的另一篇 https://blog.csdn.net/m0_47985483/article/details/109522800
    安裝Python 那節 link

網頁上的教學:

  • Python 入門: Python 的基本指令與最基本的用法, 請參考本人另一篇:
    從turtle海龜動畫 學習 Python - 高中彈性課程系列 3 烏龜繪圖 所需之Python基礎, https://blog.csdn.net/m0_47985483/article/details/109522858?spm=1001.2014.3001.5501 link

  • NumPy 入門: 用 Python+Numpy+scipy 執行 Matlab 的矩陣計算 2 產生 numpy 的 數組, 矩陣點乘 等,
    https://blog.csdn.net/m0_47985483/article/details/111745673, link

  • Matplotlib 入門: 請參考作者下一篇: Python與資料分析2-資料視覺化-基本圖表類型-Matplotlib, seaborn, link

  • Kaggle 的網頁上的教學: Python教學, https://www.kaggle.com/learn/python link
    有鐵達尼號資料的分析的教學:
    Titanic Tutorial, https://www.kaggle.com/alexisbcook/titanic-tutorial link

  • Kaggle 的網頁上的教學: Pandas教學, https://www.kaggle.com/learn/pandas link

  • Kaggle 的網頁上的教學: 機器學習初階 Intro to Machine Learning , https://www.kaggle.com/learn/intro-to-machine-learning link

  • Kaggle 的網頁上的教學: 機器學習中階 Intermediate Machine Learning, https://www.kaggle.com/learn/intermediate-machine-learning link

  • 姜楓, 許桂秋, 大數據可視化技術, Sec 2.5, 人民郵電, 2019.

  • 薛薇, R 語言數據挖掘, 電子工業.

  • 3.1 數據的直觀印象
    3.2 如何獲得單變量特徵的直觀印象
    3.3 如何獲得多變量聯合分布的直觀印象
    3.4 如何獲得變量間相關性的直觀印象

  • python数据分析_3步搞懂Python数据分析关键点, https://blog.csdn.net/weixin_39646725/article/details/109752069?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-3&spm=1001.2101.3001.4242 link

seaborn

  • seaborn 的詳細介紹可以參考此篇: herr_kun, python-seaborn画图-(matploytlib)更高级的数据绘图工具, https://blog.csdn.net/herr_kun/article/details/87697639?utm_term=python%E7%94%BB%E5%9B%BE%E5%BA%93seaborn&utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2allsobaiduweb~default-6-87697639&spm=3001.4430 link

  • Kaggle 此處的教學就是使用 seaborn: Data Visualization 資料視覺化教學, https://www.kaggle.com/learn/data-visualization link

三個入門級競賽例子:

  • Kaggle入门,看这一篇就够了, https://zhuanlan.zhihu.com/p/25686876 link
  1. Titanic(泰坦尼克之灾)
    中文教程: 机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾 https://blog.csdn.net/han_xiaoyang/article/details/49797143 link
    英文教程:An Interactive Data Science Tutorial-Based on the Titanic competition on Kaggle
    https://www.kaggle.com/helgejo/an-interactive-data-science-tutorial link

  2. House Prices: Advanced Regression Techniques(房价预测)
    中文教程:每日一课 Kaggle 练习讲解 https://zhuanlan.zhihu.com/p/74474886 link
    英文教程:How to get to TOP 25% with Simple Model using sklearn link

  3. Digital Recognition(数字识别)
    中文教程:大数据竞赛平台—Kaggle 入门 https://blog.csdn.net/u012162613/article/details/41929171 link
    英文教程:Interactive Intro to Dimensionality Reduction link

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值