pycharm安装scrapy失败_采用scrapy爬虫框架,抓取平顶山学院新闻网

这篇博客介绍了如何在PyCharm中安装和使用Scrapy爬虫框架。首先,通过View->ToolWindows->Terminal打开终端,然后在终端中执行相关命令创建项目和爬虫。接着,通过scrapy genspider命令创建爬虫文件,并指定目标域名。之后,编写爬虫代码,抓取并保存网页内容到E盘的文本文件中。最后,展示了爬虫代码的实现细节。
摘要由CSDN通过智能技术生成

我知道很多人找到了博客,但是我就是要再写一篇,没有为什吗,就是因为我看不懂他们写的。pycharm的安装库都和另一个不一样,这个会一样吗?这个题的第一步我们需要已经安装好了的库,不会的看上一篇博客博客链接我们打开pycharm,找到View --> Tool Windows --> Terminal(这个意思是终端就相当于一个cmd的窗口,只不过在pycharm中),然后我们会看到一个路径

b1bc8aa475fb0ee19b3e3975ff24a597.png

没有也没有关系,我们用命令行的方式走一个就行,such as

cd D:python1

然后你输入

scrapy startproject suibian#scrapy startproject 项目名12
6d4e9278540443435165824db46465c3.png

我们发现多了点东西接着走,

cd xinwen1

进入xinwen的目录中,执行

scrapy genspider lm news.pdsu.edu.cn#这里边lm是文件名称,news.pdsu.edu.cn 是你要爬取的域名12

执行

scrapy crawl lm1
d52e4fb47fe8a9278da25386762da096.png

然后你看图中多了一个文件lm.py,毫不犹豫的打开,粘贴下面代码

# -*- coding: utf-8 -*-import scrapyfrom bs4 import BeautifulSoupimport reclass lmSpider(scrapy.Spider):    name = 'lm'    allowed_domains = ['pdsu.cn']    start_urls = ['http://news.pdsu.edu.cn/']    def parse(self, response):        html_doc = response.text        soup = BeautifulSoup(html_doc, 'html.parser')        re = soup.find_all('h2', class_='fl')        content = ''        for lm in re:            print(lm.text)            content += lm.text + ''        with open('e:lm.txt', 'a+') as fp:            fp.writelines(content)            # 文章内容保存在e盘的lm.text中           1234567891011121314151617181920212223242526

然后你就能看你的E盘

662c1431a11ec31d266d229c3acc1fbf.png

至此完结。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值