- 博客(7)
- 资源 (2)
- 收藏
- 关注
原创 python使用selenium中的xpath定位方法
1.定位元素的父元素driver.find_element_by_xpath(“//p[@id=‘one’]/parent::p”)#定位id为one 的p标签元素。2.定位包含文本“采购人信息”的span元素的父元素p的同级下一个元素driver.find_element_by_xpath(‘//span[contains(text(),“采购人信息”)]/parent::p/following-sibling::p’)3.定位包含文本“采购人信息”的span元素的父元素p的同级上一个元素...
2022-06-14 11:27:31 613
原创 Python爬虫requests库的用法示例
requests库加BeautifulSoup的技术路线。以采集遵义公共资源交易中心土地出让成交公共数据为例。采集的是公告内容的详情页。import datetimeimport numpy as npimport pandas as pdimport requestsfrom bs4 import BeautifulSoupdef gethttptext(url,head): #获取网页HTML源码,成功返回soup,失败返回空值。try:r=requests.get(url,he
2022-06-10 15:39:12 445
原创 2020-11-30
import pandas as pddf=pd.read_excel(“工作簿1.xlsx”,sheet_name=0,header=None)i=5while i<=21:col_name=df.loc[1,i]j=0for j in [i,i+1,i+2]:df.loc[1,j]=col_name+"_"+df.loc[2,j]i=i+3if i==14:i=i+1df.rename(columns=df.loc[1],inplace=True)df.drop(label
2020-11-30 23:55:57 102
原创 学习笔记,python读取文件夹下所有电子表格文件
import osimport xlrdimport pandas as pddef file_path(file_dir):file_list = []for root, dirs, files in os.walk(file_dir):for file in files:if os.path.splitext(file)[1] == ‘.xlsx’ or os.path.splitext(file)[1] == ‘.xls’:file_list.append(os.path.join(r
2020-11-26 23:22:17 1271
原创 jieba对word文档词频分析
import docximport jiebafrom collections import Counterimport pandas as pdimport xlwtdocument=docx.Document(r"C:\Users\fj\Desktop\讲话稿.docx")content=" ".join([para.text for para in document.paragraphs])seg_list=jieba.cut(content,cut_all=False)seg_lis
2020-11-26 21:53:48 513
原创 python将pandas数据写入sqlserver数据库示例
python将pandas数据写入sqlserver数据库示例import pandas as pdimport pyodbcimport sqlalchemyengin=sqlalchemy.create_engine(“mssql+pyodbc://sa:123@testdb”)data=pd.read_excel(r"E:\anzhuo\qcm_batch_search.xlsx")data.to_sql(“单位名称”,engin,index=False,if_exists=‘append
2020-11-25 22:35:52 2772
基于大数据与云计算的会计信息化变革研究
2015-03-05
大数据概念、技术及应用研究综述
2015-03-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人