Day1 前端基础(爬虫)

Day1 前端基础(爬虫)

一、常用标签1

<!-- html版本说明
 !DOCTYPE  - 版本说明
 html - html5(最新版本)
 -->
 <!DOCTYPE html>
 
 
 <!-- 
  1.网页基本结构:
  整个网页是一个html标签。(有多少个网页就有多少个html标签,就有多少个html文件)
  一个html标签里面有一个head标签和一个body标签。
  head负责网页头部的显示
  body负责网页内容的显示
  -->
  
<!-- 
 2.标签语法
 html是通过不同的标签来给网页提供不同的内容,标签分为双标签和单标签两种
 双标签:<标签名 属性名1="属性值1" 属性名2="属性值2">标签内容</标签名>
 单标签:<标签名 属性名1="属性值1" 属性名2="属性值2"/>  或者  <标签名 属性名1="属性值1" 属性名2="属性值2">
 
 注意:双标签的内容可以是文字也可以是其他标签
 -->
<!-- html标签表示整个网页--> 
<html>
	<head>
		<!-- 设置html文件的编码方式 -->
		<meta charset="utf-8" />
		
		<!-- 设置网页标题 -->
		<title>网页标题--WX</title>
		
		<!-- 设置网页图标 
		link标签是用来导入外部文件的
		rel - 设置导入文件的作用,icon-图标,stylesheet - 样式表
		type - 设置被导入的文件类型和格式:文件类型/文件后缀,image/png - 表示导入的文件是图片,后缀是png
		href - 被导入的文件的路径-->
		<link rel="icon" type="image/jpg" href="./img/JD图标.jpg"/>
		
	</head>
	<body>
		<!-- 1.标题:h1~h6 -->
		你好,世界!
		<h1>一级标题</h1>
		<h2>二级标题</h2>
		<h3>三级标签</h3>
		<h4>四级标签</h4>
		<h5>五级标签</h5>
		<h6>六级标签</h6>
		
		<!-- 2.段落 - 自然段:p
		 一个段落一个p标签-->
		 <p>这一天一天的</p>
		 <p>这两天两天的</p>
		 <p>这三天三天的水电费付付付付付付付付付付付付付付付付付发生的,
		 口号卡拉的拉卡拉卡克拉里看见俺老家的客流量卡,等级案件收到了加快劳动节拉开建档立卡看了的金坷垃就立刻就打啦阿昆达捡垃圾山莨菪碱阿拉山口讲道理卡时间段开辣椒水鹿鼎记奥克兰 奥地利会计案例肯德基拉科技的卡拉建档立卡家里肯德基埃里克</p>
		 
		 <!-- 3.普通文字:span、font -->
		 <span>发布时间:2021 0524</span>
		 <span>王新</span><br>
		 <font>发布时间:2021 0524</font>
		 <font>王新</font>
		 
		 <!-- 4.文字相关符号和分段
		 1)换行
		 强制换行 - <br>
		 
		 2)空格
		 &nbsp; - 一个空格(空一格像素)
		 &emsp; - 一个空格(按一次空格键)
		 
		 3)加粗
		 <b></b>、<strong></strong>
		 
		 4)倾斜
		 <i></i>、<em></em>
		  -->
		  <p><b><i>&emsp;静夜思</i></b><br>
			  &nbsp;床前明月光,<br>
		     &emsp;疑似地上霜。<br>
			 举头望明月,<br>
			 低头思故乡。
		  </p>
		  
		  
	</body>
</html>

二、常用标签2

<!DOCTYPE html>
<html>
	<head>
		<meta charset="utf-8">
		<title>常用标签2</title>
	</head>
	<body>
		<!-- 1.图片
		 scr - 图片地址
		 title - 图片标题
		 alt属性 - 图片显示失败的时候的显示信息
		 -->
		<img src="./img/JD图标.jpg" title="图片1">		
		<img src="https://dss0.bdstatic.com/70cFuHSh_Q1YnxGkpoWK1HF6hhy/it/u=2496571732,442429806&fm=26&gp=0.jpg" title="图片2" >
		<img src="https://dss0.bdstatic.com/70cFuHSh_Q1YnxGkpoWKF6hhy/it/u=2496571732,442429806&fm=26&gp=0.jpg" title="图片2" alt='图片加载失败' >
		
		<!-- 2.超链接:a标签
		 <a href="跳转地址">可见可点击内容</a>
		 href属性 - 跳转地址
		 target属性 - 跳转方式,默认是_self(在当前页面中显示新的页面)、_blank(在新的窗口中显示新的页面)-->

		 
		 <a href="https://www.baidu.com" target="_blank">百度</a>
		 <a href="https://www.jd.com"><img src="./img/JD图标.jpg" title="图片1"></a>
		
		
	</body>
</html>

三、表单相关标签

<!DOCTYPE html>
<html>
	<head>
		<meta charset="utf-8">
		<title>表单标签</title>
	</head>
	<body>
		<!-- 1.表单标签 
		表单标签用来对表单中所有相关标签进行重置和提交,单独使用没有价值
		-->
		<form action="" method="">
		</form>
		<!-- 2.表单相关标签 -->
		<!-- 2.1 input标签
			type属性 - 值不同,标签的表现和作用完全不同
		 -->
		 
		 <!--
		  value属性 - 输入框中的内容
		  placeholder - 输入提示信息
		  -->
		<form action="" method="">
		普通的文本输入框:<input type="text" id='username' value="小明" placeholder="请输入手机号码" maxlength="10"/><br>
		密码输入框:<input type="password" value="123456" placeholder="请输入密码"/><br>
		
		
		
		普通按钮:<input type="button" value="确定"/><br>
		
		<!-- 单选按钮里面的value不会显示,需要在后面写 
		单选按钮需要通过label标签来提供选项,当label的for和input的id值一致的时候,点击label可以选中input
		如果希望多个选项中有且只有一个选项处于选中状态,需要将多个选项的name属性设置成相同的值
		-->
		单选按钮:<input type="radio" value=''/><br>
		单选按钮:<input type="radio" id='sex1' name='sex' checked="checked"/><label for="sex1" ></label>
				 <input type="radio" id='sex2' name='sex'/><label for='sex2' ></label><br>
		复选按钮:<input type="checkbox" id='ball1' name="ball"/><label for="ball1">篮球</label>
				 <input type="checkbox" id='ball2' name="ball"/><label for="ball2">足球</label>
				 <input type="checkbox" id='ball3' name="ball"/><label for="ball3">羽毛球</label>
				 <input type="checkbox" id='ball4' name="ball"/><label for='ball4'>乒乓球</label><br>
		
		<!-- 重置按钮只能重置和重置按钮在同一个form标签里面的内容
		 value是按钮显示的内容,默认名字为重置-->
		重置按钮:<input type="reset" value='还原'/><br>
		</form>  
		
		颜色选择器:<input type="color"/><br>
		文件选择:<input type="file" /><br>
		时间选择器:<input type="datetime-local"/><br>
		日期选择器:<input type="date"/><br>
		
	</body>
</html>

四、表单相关标签2

<!DOCTYPE html>
<html>
	<head>
		<meta charset="utf-8">
		<title>表单相关标签2</title>
	</head>
	<body>
		<!-- 1.表单相关标签 -->
		<!-- 1).多行文本输入框 -->
		<textarea rows="4" cols="100" placeholder="请输入内容...">小明</textarea>
	    <br>
		<!-- 2).下拉列表 -->
		<select name="city">
			<option value="成都市">成都市</option>
			<option value ="达州市">达州市</option>
			<option value ="绵阳市">绵阳市</option>
			<option value ="南充市">南充市</option>
			<option value ="眉山市">眉山市</option>
			<option value ="乐山市">乐山市</option>
		</select>
		
		<!-- 2.列表 -->
		<!-- 1)有序列表 -->
		<ol>
			<li>Python</li>
			<li>java</li>
			<li>h5</li>
			<li>UI</li>
			<li>物联网</li>
		</ol>
		
		<!-- 2)无序列表 -->
		<ul>
			<li>Python</li>
			<li>java</li>
			<li>h5</li>
			<li>UI</li>
			<li>物联网</li>
		</ul>
		
		<!-- 3.div标签 -->
		
	</body>
</html>

五、requests的使用

import requests
from re import *

# 1.获取指定网页数据
response = requests.get('https://www.sohu.com/')
# 设置编码方式(如果网页的编码方式不是‘utf-8’,则需要设置)
# 查看网页 charset的值
response.encoding = 'utf-8'

# 2.获取请求内容
# print(response)
# 在请求成功的时候获取网页源代码(网页内容)
# 获取搜狐网站的新闻标题和链接
if response.status_code == 200:
    str1 = response.text
    result = findall(r'<a.*?href=".*?".*?title=[\'"].*?[\'"].*?>', str1)
    for x in result:
        result1 = findall(r'href=".*?"', x)
        result2 = findall(r'title=[\'"].*?[\'"]', x)
        print(f'标题:{str(result2)[9:-3]}    链接:{str(result1)[8:-3]}')
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值