前面一直強調Python運用到網絡爬蟲方面非常有效,這篇文章也是結合學習的Python視頻知識及我研究生數據挖掘方向的知識.從而簡單介紹下Python是如何爬去網絡數據的,文章知識非常簡單,但是也分享給大家,就當簡單入門吧!同時只分享知識,希望大家不要去做破壞網絡的知識或侵犯別人的原創型文章.主要包括:
1.介紹爬取CSDN自己博客文章的簡單思想及過程
2.實現Python源碼爬取新浪韓寒博客的316篇文章
一.爬蟲的簡單思想
最近看劉兵的《Web數據挖掘》知道,在研究信息抽取問題時主要採用的是三種方法: 1.手工方法:通過觀察網頁及源碼找出模式,再編寫程序抽取目標數據.但該方法無法處理站點數量巨大情形. 2.包裝器歸納:它英文名稱叫Wrapper Induction,即有監督學習方法,是半自動的.該方法從手工標註的網頁或數據記錄集中學習一組抽取規則,從而抽取具有類似格式的網頁數據. 3.自動抽取:它是無監督方法,給定一張或數張網頁,自動從中尋找模式或語法實現數據抽取,由於不需要手工標註,故可以處理大量站點和網頁的數據抽取工作.
這裡使用的Python網絡爬蟲就是簡單的數據抽取程序,後面我也將陸續研究一些Python+數據挖掘的知識並寫這類文章.首先我想獲取的是自己的所有CSDN的博客(靜態.html文件),具體的思想及實現方式如下:第一步 分析csdn博客的源碼首先需要實現的是通過分析博客源碼獲取一篇csdn的文章,在使用IE瀏覽器按F12或Google Chrome瀏覽器右鍵"審查元素"可以分析博客的基本信息.在網頁中http://blog.csdn.net/eastmount鏈接了作者所有的博文.
顯示的源碼格式如下:
其中..