自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 关于爬虫的了解(二)

主要步骤:通过requests库抓到网页源码 通过Beautiful Soup从源码中找到并提取数据

2021-10-10 13:38:39 365

原创 Selenium库

通过python打开一个模拟浏览器,并自动访问百度首页from selenium import webdriverbrowser=webdriver.Chrome()browser.get('https://www.baidu.com/')获取网页源代码from selenium import webdriverbrowser=webdriver.Chrome()browser.get('https://www.baidu.com/')#获取网页源代码data=browser.

2021-08-19 16:09:11 107

原创 数据结构化——pandas库

通过pandas库可以爬取网页中的表格数据,对数据进行结构化处理,并导出Excel工作簿。read_html()爬取网页表格数据:import pandas as pdurl='http://vip.stock.finance.sina.com.cn/q/go.php/vInvestConsult/kind/dzjy/index.phtml'table=pd.read_html(url)[0]table #这是Jupyter Notebook中打印输出变量的方法DataFrame:D

2021-08-19 16:08:44 265

原创 Beautiful Soup入门

主要流程:导入BeautifulSoup类 传递初始化参数,并初始化 获取实例对象,操作对象获取解析、提取数据1.初始化Beautiful Soup对象从bs4库导入Beautiful Soup类 实例化一个对象。from bs4 import BeautifulSoupsoup = BeautifulSoup(markup, features)在实例化过程中,需要给Beautiful Soup这个类传递两个参数:第一个参数:markup参数解析:被解析的HTML字符串或文

2021-07-24 11:07:32 1068

原创 前端学习之HTML学习(一)

(以下为学习笔记记录,学习《Web前端学习笔记:HTML5+CSS3+JavaScript》一书)URL:统一资源定位器,为互联网上标准资源(文件)的地址。URL包含协议、服务器名称(或IP地址)、路径和文件名。例如:http://jwc.gcu.edu.cn/upoadfile/20161011/1476171253139453.xls其中,http是协议,jwc.gcu.edu.cn是服务器名称,upoadfile/20161011/是资源在服务器上的路径,14761712531394

2021-07-23 16:50:14 373

原创 关于爬虫的了解(一)

阅读资料写下关于爬虫的笔记:1.爬虫的合法性对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面数据都可以爬取2.了解网页网页一般由三部分组成,分别是HTML(超文本标记语言)、CSS(层叠样式表)和JScrip(活动脚本语言)(1)HTMLHTML是整个网页的结构,相当于整个网站的框架。带“<”、“>”符号的都是属于HTML的标签,而且标签都是成对出现的。例如:<html>..</html&gt

2021-07-19 15:22:42 125

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除