scrapy学习(一)

工具

wingIDE pro 6.0
python 3.6
scrapy 1.5.0

按照书本教程,模拟抓取数码印刷网站最新头条

  1. 运行scrapy startproject digiprintnews,创建工程项目;
  2. 运行scarpy genspider basic web;创建抓取文件
  3. items代码如下;
    import scrapy
    class DigiprintnewsItem(scrapy.Item):

    define the fields for your item here like:

    name = scrapy.Field()

    title = scrapy.Field()
    new_urls = scrapy.Field()
    date = scrapy.Field()
    news_from = scrapy.Field()
    pass
  4. basic.py代码如下;
    import scrapy

from digiprintnews.items import DigiprintnewsItem

class BasicSpider(scrapy.Spider):
name = ‘basic’
allowed_domains = [‘web’]
start_urls = [‘https://www.chinakuaiyin.cn’]

def parse(self, response):
    item  = DigiprintnewsItem()
    item['title'] = response.xpath('//div[2]/div[2]/div[2]/ul/li/a/@title')
    item['new_urls'] = response.xpath('//div[2]/div[2]/div[2]/ul/li/a/@href')
    return item

一运行就报错:No module named ‘digiprintnews’。网上各种查资料,要嘛说是pycharm需要运行一下生成路径,要嘛就是各种绝对路径、相对路径的说法。但是绝对是路径上出问题了。python无法找到对应的digiprintnews在哪里。
终于找到对应的解决办法。原方法地址:https://blog.csdn.net/smh2208/article/details/80955126?utm_source=blogxgwz6
加入以下代码:
import sys
import os
fpath = os.path.abspath(os.path.join(os.path.dirname(file),"…"))
ffpath = os.path.abspath(os.path.join(fpath,"…"))
sys.path.append(ffpath)

再次运行问题解决。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

布袋熊82

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值