- 博客(6)
- 收藏
- 关注
原创 Selenium库
通过python打开一个模拟浏览器,并自动访问百度首页from selenium import webdriverbrowser=webdriver.Chrome()browser.get('https://www.baidu.com/')获取网页源代码from selenium import webdriverbrowser=webdriver.Chrome()browser.get('https://www.baidu.com/')#获取网页源代码data=browser.
2021-08-19 16:09:11 107
原创 数据结构化——pandas库
通过pandas库可以爬取网页中的表格数据,对数据进行结构化处理,并导出Excel工作簿。read_html()爬取网页表格数据:import pandas as pdurl='http://vip.stock.finance.sina.com.cn/q/go.php/vInvestConsult/kind/dzjy/index.phtml'table=pd.read_html(url)[0]table #这是Jupyter Notebook中打印输出变量的方法DataFrame:D
2021-08-19 16:08:44 265
原创 Beautiful Soup入门
主要流程:导入BeautifulSoup类 传递初始化参数,并初始化 获取实例对象,操作对象获取解析、提取数据1.初始化Beautiful Soup对象从bs4库导入Beautiful Soup类 实例化一个对象。from bs4 import BeautifulSoupsoup = BeautifulSoup(markup, features)在实例化过程中,需要给Beautiful Soup这个类传递两个参数:第一个参数:markup参数解析:被解析的HTML字符串或文
2021-07-24 11:07:32 1068
原创 前端学习之HTML学习(一)
(以下为学习笔记记录,学习《Web前端学习笔记:HTML5+CSS3+JavaScript》一书)URL:统一资源定位器,为互联网上标准资源(文件)的地址。URL包含协议、服务器名称(或IP地址)、路径和文件名。例如:http://jwc.gcu.edu.cn/upoadfile/20161011/1476171253139453.xls其中,http是协议,jwc.gcu.edu.cn是服务器名称,upoadfile/20161011/是资源在服务器上的路径,14761712531394
2021-07-23 16:50:14 373
原创 关于爬虫的了解(一)
阅读资料写下关于爬虫的笔记:1.爬虫的合法性对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面数据都可以爬取2.了解网页网页一般由三部分组成,分别是HTML(超文本标记语言)、CSS(层叠样式表)和JScrip(活动脚本语言)(1)HTMLHTML是整个网页的结构,相当于整个网站的框架。带“<”、“>”符号的都是属于HTML的标签,而且标签都是成对出现的。例如:<html>..</html>
2021-07-19 15:22:42 125
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人