python
Fargo的火
这个作者很懒,什么都没留下…
展开
-
Python: 运用selenium爬取下拉框数据 《中国省市县地区代码表》
import pandas as pdfrom selenium import webdriverfrom selenium.webdriver.chrome.options import Optionsfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.wait import WebDri...原创 2020-03-04 15:00:24 · 1588 阅读 · 2 评论 -
Python 初级运用 request 和 selenium 爬取漫画
from bs4 import BeautifulSoupfrom selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support.wait import WebDriverWaitfrom selenium.webdriver.suppor...原创 2020-02-19 21:27:58 · 486 阅读 · 1 评论 -
Scrapy 安装及基础操作
Scrapy 安装:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 各种whl安装依赖库文件1 . wheel pip install wheel2. lxml https://lxml.de/3. PyOpenssl https://pypi.org/project/...原创 2019-12-29 23:48:53 · 124 阅读 · 0 评论 -
pandas.DataFrame.merge() 参数详解
pandas.DataFrame.merge() 官方文档Merge, join, and concatenatepd.merge 是使用数据库风格的连接合并DataFrame或已命名的系列对象。方法:DataFrame.merge(self, right, how='inner', on=None, left_on=None, right_on=None, ...原创 2019-10-23 22:17:03 · 12051 阅读 · 0 评论 -
pandas 去重函数 drop_duplicates() 和 选取重复行函数 duplicated()
1drop_duplicates() 返回删除重复行后的DataFrame,可以仅选择某些列。索引、时间型索引都是被忽略。pandas.DataFrame.drop_duplicates 官方文档方法:DataFrame.drop_duplicates(self, subset=None, keep='first', inplace=False)参数:subs...原创 2019-10-20 22:22:21 · 6337 阅读 · 0 评论 -
Python :selenium 爬取Ajax技术网页,并存入MySQL数据库 和 本地CSV文件
本次爬虫是对 天天基金网的 华泰柏瑞沪深300ETF基金 各年度各季度股票投资明细 爬取。因为直接通过requests 爬取的网页源代码 所爬数据需js渲染,使用selenium的Webdriver,模拟真实浏览器,用来解决JavaScript渲染问题。主程序,使用selenium打开网页,webdriver.Chrome()声明使用的浏览器from seleniu...原创 2019-09-04 22:40:12 · 1484 阅读 · 0 评论 -
pandas.read_csv() 参数 names整理
pandas 官方文档names: array-like, default None用于结果的列名列表,如果数据文件中没有列标题行,就需要执行header=None。默认列表中不能出现重复,除非设定参数mangle_dupe_cols=True。Age Gender Education EducationField MaritalStatus...原创 2019-10-17 14:17:25 · 7186 阅读 · 0 评论 -
pandas.read_csv() 参数 header整理
pandas.read_csv()官方文档header:int, list of int, default ‘infer’指定行数用来作为列名,数据开始行数。如果文件中没有列名,则默认为0,否则设置为None。如果明确设定header=0 就会替换掉原来存在列名。header参数可以是一个list例如:[0,1,3],这个list表示将文件中的这些行作为列标题(意味着每一列有...原创 2019-10-16 23:21:30 · 7644 阅读 · 0 评论 -
数据分析 回归问题:北京PM2.5浓度回归分析训练赛
这是DC竞赛网的训练赛中的回归问题。详情前往:北京PM2.5浓度回归分析训练赛任务:由给定一段时间内的北京天气相关指数数据和北京PM2.5指数等,建立模型预测接下来一段时间内北京的PM2.5指数。数据:数据主要包括2010年1月1日至2014年12月31日间北京pm2.5指数以及相关天气指数数据。 数据分为训练数据和测试数据,分别保存在pm25_train.csv和...原创 2019-10-11 20:57:27 · 4969 阅读 · 3 评论 -
数据分析 回归问题: 美国King County房价预测训练赛
这是DC竞赛网的一道基础回归问题, 美国King County房价预测训练赛竞赛详细信息:美国King County房价预测训练赛任务:从给定的房屋基本信息以及房屋销售信息等,建立一个回归模型预测房屋的销售价格。数据:数据主要包括2014年5月至2015年5月美国King County的房屋销售价格以及房屋的基本信息。数据分为训练数据和测试数据,分别保存在kc_train....原创 2019-09-25 19:38:31 · 3776 阅读 · 0 评论