一个简单爬虫

TriumphWWW

已于 2023-07-24 16:53:03 修改

阅读量490

点赞数

文章标签： python 爬虫

于 2023-07-24 16:52:31 首次发布

本文链接：https://blog.csdn.net/weixin_39718135/article/details/131899977

版权

一个简单爬虫–获取豆瓣电影前250部中文名
1、代码如下：

import requests
from bs4 import BeautifulSoup
headers={
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/115.0"
}

url="https://study.scho.com/web/checkpointContent?info=eyJnYW1lSWQiOjg3OTExLCJxdWVzdElkIjoxOTIwMjI0LCJnYW1lVHlwZSI6Im1vZHVsZSJ9"
start_movie=0
while start_movie<250:
    url="https://movie.douban.com/top250?start="+str(start_movie)+"&filter="
    response=requests.get(url,headers=headers)
    content = response.text
    soup =BeautifulSoup(content,"html.parser")
    all_comments = soup.findAll("span",attrs={"class":"title"})
    # tmp_title = ""
    for comments in all_comments:
        if "/" not in comments.string:
            print (comments.string)
        #     tmp_title = comments.string
        # else:
        #     print (tmp_title+comments.string)
        #     tmp_title=""

    start_movie+=25

2、需要安装两个包：

#安装
pip install requests  // 通讯请求
pip install bs4 //处理html
#导入俩包：
import requests
from bs4 import BeautifulSoup

3、遇到代码存在中文报错SyntaxError: Non-ASCII character ‘\xe5’ in file D:\pythonProjection\1_print_demo.py on line 2, but no encoding declared;

修复：在代码第一行输入# coding:UTF-8或者# -- coding:UTF-8 --

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

TriumphWWW

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

编写一个简单爬虫-全国地方政府官网

qq_40773753的博客

11-05

6893

最近在做地方政府的补录工作,原来想找一个全国地方政府官网地址汇总出乎意料几乎找遍全网没找到......心想那干脆自己爬一个于是就有了以下内容: 在我工作中我发现政府网站设计的特点: 一.省级市政府网站底部会有地级市政府以及县级市网站链接二.地级市政府网站底部会有县级市网站链接三.而且政府网站反爬机制不严格,那么想要爬取全国各个地方政府官网就不难了思路: 爬取全国34...

实现的一个简单爬虫

04-13

【标题】：“实现的一个简单爬虫” 在编程领域，爬虫是一种自动化程序，用于从互联网上抓取数据。本项目“实现的一个简单爬虫”旨在介绍如何构建一个基础的网络爬虫，帮助初学者理解爬虫的基本原理和实现步骤。通过...

参与评论您还未登录，请先登录后发表或查看评论

如何写一个简单的爬虫

weixin_44617651的博客

03-10

1994

学习爬虫重要的是知识储备以及实战能力，最近有个学妹要求我帮她写一个爬虫程序，我将我编写的爬虫代码以及解释都记录下来，方便后期更多的伙伴们学习参考。

python爬虫入门教程(二)：开始一个简单的爬虫

热门推荐

笔墨留年。

09-12

20万+

python爬虫入门教程，介绍编写一个简单爬虫的过程。

带你快速了解爬虫的原理及过程，并编写一个简单爬虫程序

weixin_61569821的博客

10-30

5520

本文针对初学者，我会使用最简单的图例、案例带你了解python爬虫！长话短说，相信这些知识对你会有所启发！

如何写一个简单的爬虫程序

weixin_47498728的博客

10-20

6932

1.首先给爬虫程序找到储存路径 2.按住shift和右键，选择在此处打开Powershell窗口(s) 3.在窗口内输入scrapy（杀毒软件可能会阻止程序运行，不要选择阻止！！！如果不小心选择了阻止，把杀毒软件退掉，重新从第二步开始） 4.在窗口内输入scrapy startproject movie 其中movie是文件的名字，可以自己取如下图所示即表示成功 5.同时也可以看到第一步打开的储存路径下多了movie这个文件夹 6.打开pycharm，点击左上角，打开刚刚新建的项目（就是mov

使用 Requests 实现一个简单网页爬虫

Python之禅的专栏

06-11

2119

第一节我们简单介绍了爬虫的基本原理，理解原理可以帮助我们更好的实现代码。Python 提供了非常多工具去实现 HTTP 请求，但第三方开源库提供的功能更丰富，你无需从 socket 通信开始写，比如使用Pyton内建模块 urllib 请求一个 URL 代码示例如下： import ssl from urllib.request import Request from urllib.request import urlopen context = ssl._create_unverified_conte

一个简单的Python爬虫

PigeonEssence的博客

01-07

1025

最近研究了一下Python，学以致用，写一个小爬虫：基础的爬虫就是通过编写程序查看页面获取资源，简单来说也就是模拟浏览器发请求。那么我们需要做的也就是用程序模拟浏览器，输入一个网址，获取资源内容。和java相比，Python搞定需求很简单，所以选择了用Python做：简单的爬虫分为三部： 1.导入Python包 from urllib import urlopen 2.输入需要爬取的URL url = "http://w...

python：一个简单爬虫的python实现过程

Bob_lb的博客

11-07

7105

摘要随着互联网的不断普及和发展，结构庞大而复杂的万维网所承载的数据量早已浩如烟海。要从这样一个庞大的“数据库”中批量的有组织的获取想要的数据，搜索引擎早已不能满足我们的需求，而网络爬虫作为网络数据获取...

利用QT编写一个简单爬虫程序

月下独奏的博客

07-12

1万+

从高中到大学，一直在固定小说网中下载小说，小说网停机过好几次但最后又起死回生。最近萌发一个想法，把小说网里的小说都爬下来。。既然要爬网站肯定要对网站结构十分了解，幸好小说网没有弄什么登陆防爬措施，结构还是很简单的。几个分类，各个分类下按页以时间排序获取小说详细页地址其实很简单，利用正则表达式即可获得。作者：星殒落大小：5.3MB等级：更新：2017-07-12

Lua的Resty-Request库写的一个简单爬虫

学IT，找陈寒

11-14

1万+

通过使用Lua语言和Resty-Request库，我们实现了一个简单的爬虫，演示了如何发送HTTP请求并获取网页内容。在实际应用中，爬虫涉及到更多的内容，包括页面解析、动态内容处理、反爬虫策略等，需要根据具体情况进行更深入的研究和处理。希望这篇文章能够为初学者提供一个入门的指引，激发大家对Web爬虫的兴趣。😊🙏Java面试技巧Java面试八股文 - 掌握面试必备知识（目录篇）Java学习路线2023年完整版Java学习路线图AIGC人工智能。

Jodd&Jerry写的一个简单爬虫示例程序.zip

03-06

URL收集：爬虫从一个或多个初始URL开始，递归或迭代地发现新的URL，构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的...

用60行代码用python编译一个简易爬虫，自动爬取豆瓣酱中《肖申克的救赎》前9页（前180个）热评，并写入txt文本和数据库

12-23

今天给大家分享一个python爬虫入门，用60行代码用python编译一个简易爬虫，自动爬取豆瓣酱中《肖申克的救赎》前9页（前180个）的热评，并将爬取的数据库写入一个txt文本当中，最后将数据写入mysql数据库的表当中 ...

java实现一个简单爬虫程序

04-15

java实现一个简单的网络爬虫程序，可以抓取网页，并输出网页源代码

用Java写的一个简单爬虫，爬取京东图书信息

08-05

本项目是一个基于Java实现的简单网络爬虫，主要用于爬取京东网站上的图书信息。爬虫是获取大量网络数据的有效工具，对于数据分析、市场研究等领域有着重要作用。下面将详细介绍这个Java爬虫项目及其涉及到的关键知识...

【人工智能学习之PaddleOCR快速上手】

Jiagym的博客

10-12

1193

在配置文件中，可以设置组建模型、优化器、损失函数、模型前后处理的参数，PaddleOCR从配置文件中读取到这些参数，进而组建出完整的训练流程，完成模型训练，在需要对模型进行优化的时，可以通过修改配置文件中的参数完成配置，使用简单且方便修改。而 L2 正则化中，添加正则化项的目的在于减少参数平方的总和。准确检测的标准是检测框与标注框的IOU大于某个阈值，正确识别的检测框中的文本与标注的文本相同。如果缺少带标注的数据，或者不想投入研发成本，建议直接调用开放的API，开放的API覆盖了目前比较常见的一些垂类。

一个检查OpenEuler版本的Python脚本的意义与实现

最新发布

cgqyw的专栏

10-16

101

在系统管理和运维工作中，确定操作系统的版本是一个常见且关键的任务。特别是在需要针对特定版本的操作系统进行部署、配置或升级时，准确地识别系统版本至关重要。OpenEuler作为一个开源的服务器操作系统，因其高性能、高可靠性、高安全性以及丰富的软件生态，逐渐受到越来越多企业和开发者的青睐。本文将介绍一个Python脚本，该脚本旨在检查系统是否为OpenEuler 22.03版本。我们将探讨编写此脚本的意义，并详细展示其实现代码。

目标检测系统中需要【重新训练模型】说明

2401_85556416的博客

10-13

369

打开"ultralytics\cfg\datasets\SODA10M.yaml"文件。将SODA10M.yaml的第一行数据集路径修改为自己数据集路径。以【基于YOLOv8的车辆行人目标检测系统】训练为例进行说明。训练模型的权重保存路径在"runs\detect\train\weights"目录下。给出的项目中已包含训练好的模型以及训练的结果，可直接使用。（3）运行main_model_train.py程序。（1）如果环境还没有搭建好的，首先要搭建训练环境。（4）训练模型保存路径。

python爬虫快速入门之---Scrapy 从入门到包吃包住

m0_63144319的博客

10-16

645

scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。Scrapy是一个开源的Python 爬虫框架，用于从网站上提取数据（即进行网络爬虫），并能将这些数据进行处理和存储。它的设计目标是简单高效地抓取大量网页，并提供强大的工具来进行数据的提取和分析。Scrapy shell是一个交互式shell（终端），您可以在其中快速调试您的抓取代码，而无需运行spider。

用Python实现一个简易爬虫

03-30

以下是一个简单的Python爬虫示例，它从一个网站中提取所有链接的URL： ```python import requests from bs4 import BeautifulSoup url = "https://example.com" resp = requests.get(url) soup = BeautifulSoup(resp.content, "html.parser") for link in soup.find_all('a'): print(link.get('href')) ``` 这个爬虫通过requests库来获取网页的HTML源码，然后通过BeautifulSoup库来解析HTML内容。最后，我们使用find_all()方法来提取所有的链接，并使用get()方法获取每个链接的URL。