利用Python爬虫,对自己的博客进行数据分析

爬虫部分

1. 读取网页

from bs4 import BeautifulSoup
import requests
r = requests.get('http://www.guofei.site')
soup=BeautifulSoup(r.text,'lxml')

2. 网页读取结果

r.status_code

3. 解析网页

import pandas as pd
a=soup.find_all(name='div',attrs={'id':['page-content']})[0]
all_articles=[]
for i in a.find_all(name='li'):
    all_articles.append([i.span.text,i.a.text,'http://www.guofei.site'+i.a.attrs['href']])
df_all_articles=pd.DataFrame(all_articles,columns=['date','title','url'])

df_all_articles是一个Pandas.DataFrame,存放博客的日期、标题、链接,我们希望格式化输处,便于黏贴到Markdown上

展示部分

2018年-06月-20日:【积分变换】拉普拉斯变换
2018年-06月-19日:【复变函数3】共形映射
2018年-06月-17日:【复变函数2】级数、留数
2018年-06月-15日:【复变函数1】极限、微积分、解析
2018年-06月-14日:数学模型
2018年-06月-07日:【几何】
2018年-06月-06日:【Python】安全工具
2018年-06月-05日:【Python】sys&os
2018年-06月-04日:git相关工具
2018年-05月-29日:【最优化】应用场景.
2018年-05月-28日:【整数规划】理论.
2018年-05月-27日:【多目标最优化】理论.
2018年-05月-26日:【非线性无约束最优化】理论.
2018年-05月-22日:【AFSA】人工鱼群算法
2018年-05月-21日:【IA】免疫优化算法
2018年-05月-18日:【Python】【matplotlib】img
2018年-05月-10日:【统计时序】Granger因果检验
2018年-05月-07日:贝叶斯参数估计.
2018年-05月-06日:【statsmodels】回归专题(进阶)(补全中)
2018年-05月-05日:【pyecharts】漂亮的可视化
2018年-05月-03日:【Python】爬虫.
2018年-04月-19日:【统计时序1】工具
2018年-04月-14日:【统计时序】非平稳数据的处理
2018年-04月-13日:【代数2】线性映射.
2018年-04月-09日:【代数1】线性空间.
2018年-03月-30日:【spark】DataFrame.
2018年-03月-29日:【spark】RDD.
2018年-03月-27日:【spark】数据读写.
2018年-03月-21日:【python】sqlAlchemy.
2018年-03月-20日:【SQL】select专题.
2018年-03月-01日:【Hive SQL】速查.
2018年-02月-04日:【Linux】常用命令
2018年-02月-03日:【Hive】基础知识.
2018年-01月-29日:【时间序列】总览
2018年-01月-28日:【tkinter】GUI设计
2018年-01月-21日:【SA】模拟退火算法
2018年-01月-18日:【ELM】极限学习机
2018年-01月-08日:微分方程
2018年-01月-06日:【积分变换】傅里叶变换
2018年-01月-05日:Boltzmann机
2018年-01月-01日:2018年书单(读完)
2017年-12月-20日:【LLE】理论与实现
2017年-12月-20日:【Isomap】理论与实现
2017年-12月-19日:【KernelPCA】理论与实现
2017年-12月-18日:LSTM
2017年-12月-17日:【TensorFlow2】激活函数,优化器
2017年-12月-17日:word2vec
2017年-12月-16日:【神经网络8】CNN理论与实现
2017年-12月-15日:【神经网络8】PNN
2017年-12月-14日:【神经网络8】Elman
2017年-12月-13日:【神经网络7】SOM
2017年-12月-12日:【神经网络6】竞争神经网络
2017年-12月-11日:【神经网络5】连续Hopfield
2017年-12月-10日:【神经网络4】离散Hopfield
2017年-12月-09日:【神经网络3】RBF&GRNN
2017年-12月-08日:【Matplotlib】3D视图
2017年-12月-07日:【学习笔记】神经网络(9)
2017年-12月-06日:【神经网络2】误差反向传播算法
2017年-12月-04日:【统计时序2】平稳性
2017年-12月-03日:【判别分析】理论篇
2017年-12月-02日:【Monte】马尔科夫链问题.
2017年-12月-01日:【TensorFlow1】session,变量,运算符
2017年-11月-30日:【ridge&lasso】理论与实现
2017年-11月-29日:【pandas】时间序列
2017年-11月-28日:【DBSCAN】理论与实现
2017年-11月-27日:【ICA】理论与实现
2017年-11月-26日:【Apriori】关联规则
2017年-11月-25日:【MDS】Python实现
2017年-11月-24日:【特征工程】归一化/标准化/正则化
2017年-11月-23日:Linux命令
2017年-11月-22日:【回归分析】理论与实现
2017年-11月-21日:【相关分析】理论篇
2017年-11月-13日:【CRF】理论篇
2017年-11月-11日:【HMM】理论篇
2017年-11月-10日:【GMM】理论与实现
2017年-11月-09日:【EM算法】理论篇
2017年-11月-01日:【Python】可视化方法汇总
2017年-10月-30日:【约束非线性优化】拉格朗日法与KKT.
2017年-10月-29日:【pandas】练习题
2017年-10月-28日:【假设检验】Python实现.
2017年-10月-27日:【统计推断】理论与实现
2017年-10月-26日:多元微积分
2017年-10月-25日:【Naive Bayes】理论与实现
2017年-10月-24日:【KNN】理论与实现
2017年-10月-23日:【感知机】理论简介
2017年-10月-22日:【Python】【datetime】
2017年-10月-21日:【MLP】BP神经网络实现
2017年-10月-20日:【Random Forest】理论与实现
2017年-10月-19日:数据清洗方法
2017年-10月-18日:【pandas】groupby
2017年-10月-18日:【pandas】描述统计&简单作图
2017年-10月-17日:【pandas】index&colums相关
2017年-10月-16日:【pandas】去重、填充、排序
2017年-10月-15日:【pandas】数据筛选
2017年-10月-13日:【FA】理论与实现
2017年-10月-12日:【PCA】理论与实现
2017年-10月-10日:【Python】【面向对象】类的特殊成员
2017年-10月-08日:【Python】【面向对象】字段&方法
2017年-10月-07日:【Python】【面向对象】继承&多态
2017年-10月-06日:【Python】【pickle】
2017年-10月-06日:【Bagging&Boosting】理论与实现
2017年-10月-03日:【交叉验证】介绍
2017年-10月-01日:【Python】【seaborn】绘图示例
2017年-09月-30日:【层次聚类】理论与实现
2017年-09月-29日:【聚类】汇总
2017年-09月-28日:【SVM】理论与实现
2017年-09月-27日:【Python】【matplotlib】动画
2017年-09月-26日:【Python】【matplotlib】键鼠响应事件
2017年-09月-25日:【Python】【matplotlib】绘图函数
2017年-09月-22日:【Python】【matplotlib】面向对象绘图
2017年-09月-20日:【matplotlib】设置&多图&汉字
2017年-09月-18日:【算法理论4】:hash
2017年-09月-17日:【算法理论3】:Tree
2017年-09月-12日:【最小生成树问题】Prim和Kruskal.
2017年-09月-11日:【Python】【heapq】堆结构.
2017年-09月-04日:经典数据集
2017年-08月-29日:【数值计算】若干简介.
2017年-08月-29日:【算法小题】马踏棋盘问题.
2017年-08月-29日:【算法小题】24点问题.
2017年-08月-29日:【算法小题】破碎的砝码.
2017年-08月-28日:简单的算法题小试
2017年-08月-24日:递归
2017年-08月-24日:【huffman】哈夫曼算法原理和实现
2017年-08月-23日:【Python】pymysql
2017年-08月-21日:【Mento Carlo 3】生成指定分布随机数的方法.
2017年-08月-18日:【Mento Carlo 2】随机数发生器.
2017年-08月-17日:【Mento Carlo 1】 背后的数学理论.
2017年-08月-09日:【Python】【scipy】Random Variable.
2017年-08月-08日:【趣味小题】酒鬼90%几率去酒吧.
2017年-08月-07日:【趣味小题】逻辑教授三学生问题
2017年-08月-04日:law of large numbers
2017年-08月-04日:【Python】2 examples of Chebyshev inequality.
2017年-08月-02日:概率测度简介
2017年-08月-02日:条件概率,条件期望,条件方差
2017年-07月-30日:【Real analysis(5)】连续性与拓扑
2017年-07月-23日:【Real analysis(4)】级数,巴拿赫空间与希尔伯特空间
2017年-07月-19日:【Real analysis(3)】Sequence in Metric Space.
2017年-07月-18日:【Probit】理论简介
2017年-07月-17日:【统计时序】GARCH
2017年-07月-10日:【ARIMA】理论与实现
2017年-07月-09日:【时间序列】马尔科夫法
2017年-07月-08日:【智能算法】混合智能算法
2017年-07月-08日:【描述时序】指数平滑法
2017年-07月-06日:【描述时序】趋势、季节和随机性
2017年-07月-05日:【Python】【numpy】ufunc.
2017年-07月-05日:【Python】【numpy】linalg线性代数.
2017年-07月-05日:【Python】【numpy】random随机数生成.
2017年-07月-05日:【Python】【numpy】ndarray
2017年-07月-05日:【趣味小题】随机漫步.
2017年-07月-04日:【pandas】合并数据表
2017年-07月-02日:数据分析的主要流程
2017年-06月-29日:【Real analysis(2)】集合论与拓扑学.
2017年-06月-29日:【逻辑学】连锁悖论、真值度、超赋值理论与认知主义.
2017年-06月-12日:【线性最优化】理论篇.
2017年-06月-09日:【最优化】理论篇.
2017年-06月-09日:【Kmeans】理论与实现
2017年-06月-06日:【最小二乘估计】scipy.optimize.leastsq.
2017年-06月-06日:【最优化】scipy.optimize.fmin.
2017年-06月-06日:【插值】scipy.interpolate.
2017年-06月-06日:【数值积分】scipy.integrate.
2017年-06月-06日:【解方程】scipy.optimize.solve.
2017年-06月-04日:【Real analysis(1)】范数、测度和距离.
2017年-06月-03日:【汇总】统计学知识汇总
2017年-05月-30日:sigmoid-function的林林总总
2017年-05月-26日:scipy的stats库
2017年-05月-26日:常见统计分布(2)
2017年-05月-26日:常见统计分布(1)
2017年-05月-25日:【ACA】蚁群算法
2017年-05月-23日:信息熵
2017年-05月-22日:【Decision Tree】理论与实现
2017年-05月-22日:机器学习模型汇总
2017年-05月-19日:Python特性研究.
2017年-05月-19日:【编程技巧】Matlab
2017年-05月-18日:【算法理论2】:Graph
2017年-05月-18日:【算法理论1】:复杂度
2017年-05月-15日:【pandas】读入与读出
2017年-05月-07日:【logistics】理论与实现
2017年-05月-06日:【jekyll】安装和配置.
2017年-05月-06日:【jekyll】建站日记.
2017年-05月-04日:mermaid语法速查表.
2017年-05月-03日:【Python】【算法小题集】1
2017年-05月-02日:【模型评价】理论与实现
2017年-04月-30日:【Elo模型】理论篇
2017年-04月-29日:文本分词并画词云.
2017年-04月-29日:取上三角和下三角.
2017年-04月-26日:【Python】sqlite
2017年-04月-04日:【Python】运行效率研究.
2017年-04月-01日:【神经网络1】总览
2017年-03月-18日:【Python】运算符.
2017年-03月-17日:【Python】【open】打开.
2017年-03月-16日:【Python】【str】字符串.
2017年-03月-15日:【Python】基本数据类型.
2017年-03月-10日:LaTeX语法速查表.
2017年-02月-10日:git语法速查表.
2017年-02月-02日:markdown语法速查表.
2017年-01月-28日:2017年书单(读完)
2016年-12月-01日:【PSO】粒子群算法
2016年-10月-05日:【GA】遗传算法理论与Python实现
2016年-10月-01日:【遗传算法】Matlab实现
2016年-07月-25日:【随笔】 《谁动了我的奶酪》中的粒子群算法.
2016年-07月-06日:【Matlab工具箱】十几个机器学习代码
2016年-05月-28日:【Matlab】table运行效率研究
2016年-05月-28日:【合集】【Matlab】运行效率研究
2016年-05月-25日:【Dijkstra】Matlab实现
2016年-05月-17日:收藏夹
2016年-05月-06日:【Matlab工具箱】线性神经网络
2016年-05月-06日:【Matlab工具箱】感知机
2016年-05月-06日:【Matlab工具箱】BP神经网络
2016年-05月-06日:【Matlab工具箱】REF径向基网络
2016年-05月-06日:【Matlab】自编代码实现感知机
2016年-05月-04日:【dummies】虚拟变量回归
2016年-04月-05日:【回收】【可视化方法】
2016年-04月-04日:【Matlab】恶俗古风诗歌自动生成器.
2016年-03月-01日:小事记
2016年-02月-20日:【随机模拟试验】枪手博弈问题(一).
2016年-02月-09日:【小实验】有偏分布下的均值、中位数、众数之间的关系.
2016年-01月-28日:2016年书单(读完)
2015年-12月-31日:【蒙特卡洛】DLA分形之雪花的制造.
2015年-12月-22日:【读后感】《进化论与生活》(戴维.斯隆.威尔逊).
2015年-12月-21日:【读后感】《大国空巢》.
2015年-12月-21日:【读后感】《奇点临近》.
2015年-02月-10日:刷证狂
2015年-02月-03日:【SQL】通用语法.
2015年-01月-30日:mySQL配置.
2015年-01月-29日:2015年书单(读完)
2014年-01月-01日:2014年书单(读完)
2013年-01月-01日:早于2014年的书单(读完)

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值