python爬虫1---HTML基础

最新推荐文章于 2022-01-05 17:16:48 发布

knaha

最新推荐文章于 2022-01-05 17:16:48 发布

阅读量496

点赞数 1

分类专栏： python

本文链接：https://blog.csdn.net/knaha/article/details/100590621

版权

python 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

查看网页的HTML源码（“检查”）
HTML的层级
HTML的组成
标签和元素
网页头和网页体
属性

这个书苑不太冷5.0 HTML源码(部分)

<div id="article">
    <div id="nav">
        <a href="#type1" class="catlog">科幻小说</a><br>
        <a href="#type2" class="catlog">人文读物</a><br>
        <a href="#type3" class="catlog">技术参考</a><br>
    </div>
    <div id="main">
        <div class="books">
            <h2><a name="type1">科幻小说</a></h2>
            <a href="https://book.douban.com/subject/27077140/" class="title">《奇点遗民》</a>
            <p class="info">本书精选收录了刘宇昆的科幻佳作共22篇。《奇点遗民》融入了科幻艺术吸引人的几大元素：数字化生命、影像化记忆、人工智能、外星访客……刘宇昆的独特之处在于，他写的不是科幻探险或英雄奇幻，而是数据时代里每个人的生活和情感变化。透过这本书，我们看到的不仅是未来还有当下。</p> 
            <img class="img" src="./spider-men5.0_files/s29492583.jpg">
            <br/>
            <br/>
            <hr size="1">
        </div>
        
        <div class="books">
            <h2><a name="type2">人文读物</a></h2>
            <a href="https://book.douban.com/subject/26943161/" class="title">《未来简史》</a>
            <p class="info">未来，人类将面临着三大问题：生物本身就是算法，生命是不断处理数据的过程；意识与智能的分离；拥有大数据积累的外部环境将比我们自己更了解自己。如何看待这三大问题，以及如何采取应对措施，将直接影响着人类未来的发展。</p> 
            <img class="img" src="./spider-men5.0_files/s29287103.jpg">
            <br/>
            <br/>
            <hr size="1">
        </div>
        
        <div class="books">
            <h2><a name="type3">技术参考</a></h2>
            <a href="https://book.douban.com/subject/25779298/" class="title">《利用Python进行数据分析》</a>
            <p class="info">本书含有大量的实践案例，你将学会如何利用各种Python库（包括NumPy、pandas、matplotlib以及IPython等）高效地解决各式各样的数据分析问题。由于作者Wes McKinney是pandas库的主要作者，所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。</p> 
            <img class="img" src="./spider-men5.0_files/s27275372.jpg">
            <br/>
            <br/>
            <hr size="1">
        </div>
    </div>
</div> 


<!--
（第9、19、29行）给h2元素标注了name属性，< section id='nav'>中的超链接标签(第3、4、5行)以这个name属性为标识，设置了跳转到这个标题的锚点；
（第10、20、30行）给书名添加了超链接，可以链接到这本书的豆瓣主页；以及，（第12、22、32行）用<img>标签添加了书的封面图片。 -->

获取网页源码

URL： https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html

import requests
#引用requests库
res = requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
#res.encoding='utf-8'
code=res.text 
#把Response对象的内容以字符串的形式返回
#print(code)
k = open('htmlcode.txt','a+',encoding='utf-8')
#创建一个名为htmlcode的txt文档，指针放在文件末尾，追加内容
k.write(code)
#写进文件中     
k.close()
#关闭文档

knaha

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python爬虫1---HTML基础

查看网页的HTML源码（“检查”）HTML的层级HTML的组成标签和元素网页头和网页体属性这个书苑不太冷5.0 HTML源码(部分)<div id="article"> <div id="nav"> <a href="#type1" class="catlog">科幻小说</a><br> ...
复制链接

扫一扫