python
越过山丘宁宁宁
人望山 鱼窥荷
展开
-
BeautifulSoup简单爬取百度贴吧
BeautifulSoup简单爬取百度贴吧()一.分析百度贴吧网页信息 注意:本人使用的环境为python3.6+pycharm2017.2.4我们以百度贴吧权利的游戏吧为例:http://tieba.baidu.com/f?ie=utf-8&kw=权利的游戏&fr=search 分析网页我们发现规律:每换一页pn增加50 这个在我们抓取每页信息循环页数的时候用得上。 好了我们现在来分析下我们原创 2017-12-09 14:55:38 · 1760 阅读 · 1 评论 -
matplotlib绘图系列----3D曲面图与散点图
使用mpl_toolkits.mplot3d下Axes3D绘制3D图形Axes3D:可以在2D matplotlib图形上绘制3D对象1.曲面图plot_surface()–创建一个曲面图。参数: 我们先看参数:画三维图形需要三个坐标 xyz rstride: Array row stride (step size) row步长 cstride: Array colu原创 2017-12-14 11:09:38 · 13588 阅读 · 0 评论 -
matplotlib解决中文乱码问题
matplotlib解决中文乱码问题的两种方法1.Matplotlib的字体管理通过指定字体来解决乱码问题,首先找到Windows的字体库所在位置我的是:”C:\Windows\Fonts” 找到一款中文字体点击属性取名字然后是指定字体路径:myfont=fm.FontProperties(fname="C:\Windows\Fonts\STFANGSO.TTF")具体用法如下:#-*- codin原创 2017-12-14 14:17:44 · 5865 阅读 · 0 评论 -
matplotlib绘图系列----pie饼图
使用plt.pie绘制饼图绘制饼图我们用matplotlib.pyplot.pie(), 我们先看下他的基本参数: 下面结合实例演示基本用法:#-*- coding: utf-8 -*-#加入中文显示import matplotlib.pyplot as pltimport numpy as npfig=plt.figure() #创建一个新figure#饼图labels=['vi原创 2017-12-14 10:29:17 · 6993 阅读 · 0 评论 -
BeautifulSoup使用
BeautifulSoup使用1.简介 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,简单来说,它能将HTML的标签文件解析成树形结构,然后方便地获取到指定标签的对应属性。2.安装 安装BeautifulSoup比较简单,直接使用pip命令进行安装,Windows cmd下输入“pip install bs4”然后进入原创 2017-12-04 12:09:02 · 359 阅读 · 0 评论 -
Selenium+PhantomJS()+PIL漫画快照
Selenium爬取漫画网站保存快照一.目标网站分析目标网站:漫画台 目标漫画:斗罗大陆:http://www.manhuatai.com/douluodalu/1.html 目标数据:网站的漫画部分 网站分析:通过网址我们发现:每一章网址后缀数字不一样。第二章为*.2.html 以此类推。 selenium 可以模拟浏览器操作。我们只要模拟点击下一页按钮就可以翻页前提是读取方式为”单机翻原创 2017-12-10 15:21:30 · 955 阅读 · 0 评论 -
动态网页抓取Selenium的安装与使用
selenium的安装与使用一.回顾前面我们爬取的网页列如百度贴吧,起点中文网都是静态网页,这样的网页在浏览器中展示的内容都在HTML源码中。但是现在很多网站都是采用JavaScript来展示网页内容,这时候爬取静态网页的技术就不管用了。爬取动态网页有两种方法: 1.分析网页找到真实网页地址(如爬取中彩网双色球信息例子), 2.使用selenium模拟浏览器的方法。二.Selenium简介与安装原创 2017-12-10 11:04:23 · 363 阅读 · 0 评论 -
BeautifulSoup爬虫之保存到mysql数据库
爬取起点中文网 数据保存到mysql数据库一.分析网页目标网站:起点中文网目标数据:类别(categoryName)小说书名(bookName) 小说链接(middleUrl)字数(wordsNums) 作者(updateTiems) 最新章节更新时间(authorName)目标urls:”https://www.qidian.com/all?chanId=1&orderId=&style=2&pa原创 2017-12-09 21:55:43 · 3991 阅读 · 0 评论 -
BeautifulSoup爬虫之保存CSV文件
爬虫保存数据到CSV文件一.闲话一般我们写爬虫时都会保存为简单的text文件,但是当我们爬取的数据量很大我们想方便统计或者想存长时间保存 这个时候我们怎么办?我们可以保存信息为CSV格式 或者直接保存到数据库中。python提供了这样的包给我们!接下来我们以“中彩网往期双色球信息”为例给大家演示下如何保存信息CSV格式。二.干活 依然是爬虫三部曲:分析网页获取目标网址 ,爬取信息,保存信息。 1原创 2017-12-09 16:26:26 · 4716 阅读 · 0 评论 -
python3 使用pymysql连接数据库并用Matplotlib实现数据可视化
在python的数据可视化中常用到Matplotlib库,通过Matplotlib展示一些数据是十分方便的事情,但我们并不满足处理一些“死数据”,如何将数据库中的数据取出来并用好看的图表展示呢!python提供了 MySQLdb ,Pymysql等库给我们使用。 python语言的3 x完全不向前兼容,Python2.x中使用的的MySQLdb并不支持python3。所以我们使用Py...原创 2018-05-09 16:24:13 · 10868 阅读 · 2 评论