Python
小白鸽
啥都会一点,啥都不精的半吊子程序员
展开
-
pandas 数据统计
最近有个客户需求私有化部署,但不需要大数据. 需要将数据统计改造,查了下,发现pandas和SparkSql比较像. 所以采用pandas做数据统计改造.#读数据库import pandas as pdimport pymysqlconn=pymysql.connect(host='xxx.xx.xx.xxx',port=3306,user='username',passwd='...原创 2017-12-21 11:08:23 · 1923 阅读 · 0 评论 -
pandas 从dataframe A剔除 dataframe B包含的行
最近有一个需求每10分钟,将统计当天每个项目下检测下载升级数据,然后将统计结果插入数据库。 假设第一次统计结果为A.txt, 10分钟后,统计结果为B.txt, 但是只有少数项目的统计改变,大部分还是原样,那没必要把所有B的统计结果更新到数据。 只更新变动那行。去stackoverflow,找到一种方法,比较符合预期。result = pd.merge(dataframe_b,原创 2018-01-17 10:35:44 · 6192 阅读 · 0 评论 -
scrapy爬取小说(一)
最近想学习scrapy爬虫,先爬小说练练手。安装scrapypip install scrapy新建novel项目scrapy startproject novel 目录结构如下:打开chrome查看网页源码在命令端运行scrapy shell https://www.booktxt.net/6_6453/ 输入response.css("div#list dd a...原创 2019-02-18 19:23:39 · 688 阅读 · 0 评论 -
scrapy爬取小说(二)
根据上一章目录分析今天继续分析每一章内容chrome打开https://www.booktxt.net/6_6453/5235604.html分析终端命令scrapy shell https://www.booktxt.net/6_6453/5235604.html输入命令response.css("div.bookname h1::text").get()response原创 2019-02-19 11:14:09 · 1297 阅读 · 0 评论 -
scrapy selenium解析淘宝
淘宝页面是JS动态页面,需要selenium模仿chrome访问淘宝.新建项目scrapy startproject taobaocd taobaoscrapy genspider example www.taobao.com结构图下图:安装selenium,并下载chromediverpip install -U selenium 编写middleware.py文件中Tao...原创 2019-02-28 18:29:27 · 824 阅读 · 0 评论 -
scrapy爬取小说(三)
根据上章scrapy爬取小说(二)爬取的小说的章节是乱序的,所以需要章节排序。使用Item和Pipeline对最终结果排序修改items.py文件import scrapyclass NovelItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() ...原创 2019-02-20 10:43:59 · 1553 阅读 · 0 评论 -
Pandas使用技巧
记录常用的pandas操作import pandas as pd#读csv文件data= pd.read_csv(r'D:\station_choose.csv',encoding='gbk')#读excel文件data= pd.read_excel(r'D:\前1000查询线路.xlsx',encoding='gbk')#查看列数和行数data.shape#查看类型d...原创 2019-04-23 15:10:05 · 295 阅读 · 0 评论