pycharm安装scrapy失败_采用scrapy爬虫框架，抓取平顶山学院新闻网

最新推荐文章于 2023-10-09 11:23:32 发布

weixin_39527372

最新推荐文章于 2023-10-09 11:23:32 发布

阅读量47

点赞数

文章标签： pycharm安装scrapy失败

本文链接：https://blog.csdn.net/weixin_39527372/article/details/111641858

版权

这篇博客介绍了如何在PyCharm中安装和使用Scrapy爬虫框架。首先，通过View->ToolWindows->Terminal打开终端，然后在终端中执行相关命令创建项目和爬虫。接着，通过scrapy genspider命令创建爬虫文件，并指定目标域名。之后，编写爬虫代码，抓取并保存网页内容到E盘的文本文件中。最后，展示了爬虫代码的实现细节。

摘要由CSDN通过智能技术生成

我知道很多人找到了博客，但是我就是要再写一篇，没有为什吗，就是因为我看不懂他们写的。pycharm的安装库都和另一个不一样，这个会一样吗？这个题的第一步我们需要已经安装好了的库，不会的看上一篇博客博客链接我们打开pycharm，找到View --> Tool Windows --> Terminal(这个意思是终端就相当于一个cmd的窗口，只不过在pycharm中),然后我们会看到一个路径

没有也没有关系，我们用命令行的方式走一个就行,such as

cd D:python1

然后你输入

scrapy startproject suibian#scrapy startproject 项目名12

我们发现多了点东西接着走，

cd xinwen1

进入xinwen的目录中，执行

scrapy genspider lm news.pdsu.edu.cn#这里边lm是文件名称，news.pdsu.edu.cn 是你要爬取的域名12

执行

scrapy crawl lm1

然后你看图中多了一个文件lm.py，毫不犹豫的打开,粘贴下面代码

# -*- coding: utf-8 -*-import scrapyfrom bs4 import BeautifulSoupimport reclass lmSpider(scrapy.Spider):    name = 'lm'    allowed_domains = ['pdsu.cn']    start_urls = ['http://news.pdsu.edu.cn/']    def parse(self, response):        html_doc = response.text        soup = BeautifulSoup(html_doc, 'html.parser')        re = soup.find_all('h2', class_='fl')        content = ''        for lm in re:            print(lm.text)            content += lm.text + ''        with open('e:lm.txt', 'a+') as fp:            fp.writelines(content)            # 文章内容保存在e盘的lm.text中           1234567891011121314151617181920212223242526

然后你就能看你的E盘

至此完结。

weixin_39527372

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pycharm安装scrapy失败_采用scrapy爬虫框架，抓取平顶山学院新闻网

我知道很多人找到了博客，但是我就是要再写一篇，没有为什吗，就是因为我看不懂他们写的。pycharm的安装库都和另一个不一样，这个会一样吗？这个题的第一步我们需要已经安装好了的库，不会的看上一篇博客博客链接我们打开pycharm，找到View --> Tool Windows --> Terminal(这个意思是终端就相当于一个cmd的窗口，只不过在pycharm中),然后我们会看到一个...
复制链接

扫一扫