1.12-1.17 项目进度

1.10:接到任务

        研究一下新闻爬虫及其语意事件分析,用mysql,weka及合适的爬虫实现。

1.11:玩了一天

1.12:开始准备,比较了各种爬虫,最终选定 scrapy作为爬虫工具。

1.13:继续研究scrapy。晚上集体地开了个会。导师重述了每个人的相关任务。

1.14:研究scrapy与mysql的连接,无果。郁闷。 研究mysql的基本用法。

1.15:继续研究scrapy与mysql 的连接,用python 是可以检测到连接上了,可是依旧写不进去。郁闷、、、、、、下午,导师开会,报告进度,进行思路讨论。看了些语意分析的 

            论文。然后下午,晚上玩了,罪过。

1.16:突然,看了篇博客,http://www.cnblogs.com/huhuuu/p/3706994.html,感谢这位博主啊,教会了我转变思路,先把抓取的内容,存在.txt中,然后再存储到mysql中。

           开始对scrapy框架有了进一步的了解。

1.17:基于上述博客的基础上,开始尝试 抓取 腾讯数码新闻,网易数码新闻,good!基本算是成功。然后,进一步 自己经过好久的分析,添加代码,又尝试抓取新闻中的内容。

         good!终于在刚才调试成功。我去,累死了。


回过头看成果,好像不算多,可是,过程中遇到了不少问题,一个个排查,解决。

从最开始的,选择爬虫,我本来想选择 nuntch,luncene,这几个java的爬虫,想趁机读代码提升java功力。还有hun**?,都是大名鼎鼎的开源爬虫。可是最后发现,还是选择scrapy吧,毕竟是个框架,而且是纯python开发的,you know,Python的威力极大,可以减轻许多工作量。就目前的状态而言,感觉选择scrapy是个不错的选择。不能一口吃个胖子,先把 scrapy 熟悉了,灵活运用了,将来在深入学习,nunch等,这样有了基础,就学的快些了,就应该不会那么痛苦了。

Job:scrapy 与各大爬虫的比较


然后是,思考如何做后面的语意分析,查了很多篇 文库中的论文,都和我的目前的任务不太契合。索性自己想,

首先,这明明就是 自然语言处理的部分。幸好选了NLP(虽然成绩给的,我都想找哪个TA理论,哼),可是至少学了点皮毛,心里有一丁点谱。


开始研究scrapy,跟着许多博客后面做,可是pipeline,链接数据库的地方,试了几十次,都累趴了,还是没有解决。其中,调试时,;调试的方法:

如:对test中的所有.py文件,一个个排查,就是对每个.py文件,按F5,查看错误信息这种方法很重要,尤其是使用框架时,找不到错误在哪时。如此次,发现少装了MySQLdb模块,就是这样找到的 极大的错误


还有,对于mysql,在安装时耗费了很多功夫。(具体解决办法,见另一篇博文)太可怜了,可惜没有师兄师姐可以请教。然后发现基本的建表什么的都不会了,开始找博客,学习了一些mysql的基本的操作。use test(数据库名);对了最最重要的是,在dos下输入每条命令时,要记得在最后加上“;”这样才算是输入了一条命令

还有,那个navicat还可以吧,能用。


当我研究scrapy和mysql为什么总是写不进去东西(到现在,其实还没解决)。我找了各种关于scrapy的文档,无奈。

此时尝试了博客http://www.cnblogs.com/huhuuu/p/3706994.html,发现他生成了个文本文件,哎,总算可以换种思路交差了。

研究他的代码。发现,Xpath,re,html标签,等知识严重缺少。尤其是xpath的学习,后面成为必备。


今天17号,还不错,今天还有点收获。上午,尝试调代码,试试抓取 腾讯数码,网易数码的新闻,稍微修改了下,成功了,不过只能抓取 21k 大小的内容。不够啊。

下午玩了。

晚上,还不错。自己找到了几行重要的代码:response.body;返回的是个字符串。不过,这个字符串就是整个网页的html代码,这还不行啊,我必须从中吧文字筛出来锕。

此处又是泪和苦逼,由于不懂xpath,;当然直接用python 的re,等其他技术也可以,关键是正则表达式什么的,都不会啊。

最后,这个网又挽救了我

重要的网址:http://www.open-open.com/lib/view/open1329700631343.html

结合的代码


才知道还有这路神圣:


from sgmllib import SGMLParser (厉害的SGMLParser)

class GetIdList(SGMLParser):
    def reset(self):
        self.IDlist = []
        self.flag = False
        self.getdata = False
        self.verbatim = 0
        SGMLParser.reset(self)
       # print "hi"
         
    def start_div(self, attrs):
        
        if self.flag == True:
            self.verbatim +=1 #进入子层div了,层数加1
            #print "div"
            return
        for k,v in attrs:#遍历div的所有属性以及其值
            if k == 'id' and v == 'Cnt-Main-Article-QQ':#确定进入了<div class='entry-content'>
                self.flag = True
               # print "jinru div"
                return
 
    def end_div(self):#遇到</div>
        if self.verbatim == 0:
            self.flag = False
        if self.flag == True:#退出子层div了,层数减1
            self.verbatim -=1
 
    def start_p(self, attrs):
        #print "p"
        if self.flag == False:
            return
        self.getdata = True
         
    def end_p(self):#遇到</p>
        if self.getdata:
            self.getdata = False
 
    def handle_data(self, text):#处理文本
        #print "nihao"
        if self.getdata:
            self.IDlist.append(text)
           # print "zhende"
             
    def printID(self):
        #print "text"
        for i in self.IDlist:
           # print "weishenme"
            print i
            




class GetIdList_163(SGMLParser):
    def reset(self):
        self.IDlist = []
        self.flag = False
        self.getdata = False
        self.verbatim = 0
        SGMLParser.reset(self)
       # print "hi"
         
    def start_div(self, attrs):
        
        if self.flag == True:
            self.verbatim +=1 #进入子层div了,层数加1
            #print "div"
            return
        for k,v in attrs:#遍历div的所有属性以及其值
            if k == 'id' and v == 'endtext':#确定进入了<div class='entry-content'>
                self.flag = True
               # print "jinru div"
                return
 
    def end_div(self):#遇到</div>
        if self.verbatim == 0:
            self.flag = False
        if self.flag == True:#退出子层div了,层数减1
            self.verbatim -=1
 
    def start_p(self, attrs):
        #print "p"
        if self.flag == False:
            return
        self.getdata = True
         
    def end_p(self):#遇到</p>
        if self.getdata:
            self.getdata = False
 
    def handle_data(self, text):#处理文本
        #print "nihao"
        if self.getdata:
            self.IDlist.append(text)
           # print "zhende"
             
    def printID(self):
        #print "text"
        for i in self.IDlist:
           # print "weishenme"
            print i
            

使用:

    #item['content']=response.body
        sel2 = response.body  #重要代码。
       # sel2=response.read()


        lister = GetIdList()
        lister.feed(sel2)
        #print 'bb'
        lister.printID()




        lister_163 = GetIdList_163()
        lister_163.feed(sel2)
        #print 'bb'
        lister_163.printID()
        

终于成功的把文本提出来了。

当然,还有一些无用的东西,这个须得我好好研究下 html,xpath,SGMLParser。。。。。明个,继续加油吧。今天太累了。







【使用教程】 一、环境配置 1、建议下载anaconda和pycharm 在anaconda中配置好环境,然后直接导入到pycharm中,在pycharm中运行项目 anaconda和pycharm安装及环境配置参考网上博客,有很多博主介绍 2、在anacodna中安装requirements.txt中的软件包 命令为:pip install -r requirements.txt 或者改成清华源后再执行以上命令,这样安装要快一些 软件包都安装成功后才算成功 3、安装好软件包后,把anaconda中对应的python导入到pycharm中即可(不难,参考网上博客) 二、环境配置好后,开始训练(也可以训练自己数据集) 1、数据集准备 需要准备yolo格式的目标检测数据集,如果不清楚yolo数据集格式,或者有其他数据训练需求,请看博主yolo格式各种数据集集合链接:https://blog.csdn.net/DeepLearning_/article/details/127276492 里面涵盖了上百种yolo数据集,且在不断更新,基本都是实际项目使用。来自于网上收集、实际场景采集制作等,自己使用labelimg标注工具标注的。数据集质量绝对有保证! 本项目所使用的数据集,见csdn该资源下载页面中的介绍栏,里面有对应的下载链接,下载后可直接使用。 2、数据准备好,开始修改配置文件 参考代码中data文件夹下的banana_ripe.yaml,可以自己新建一个不同名称的yaml文件 train:训练集的图片路径 val:验证集的图片路径 names: 0: very-ripe 类别1 1: immature 类别2 2: mid-ripe 类别3 格式按照banana_ripe.yaml照葫芦画瓢就行,不需要过多参考网上的 3、修改train_dual.py中的配置参数,开始训练模型 方式一: 修改点: a.--weights参数,填入'yolov9-s.pt',博主训练的是yolov9-s,根据自己需求可自定义 b.--cfg参数,填入 models/detect/yolov9-c.yaml c.--data参数,填入data/banana_ripe.yaml,可自定义自己的yaml路径 d.--hyp参数,填入hyp.scratch-high.yaml e.--epochs参数,填入100或者200都行,根据自己的数据集可改 f.--batch-size参数,根据自己的电脑性能(显存大小)自定义修改 g.--device参数,一张显卡的话,就填0。没显卡,使用cpu训练,就填cpu h.--close-mosaic参数,填入15 以上修改好,直接pycharm中运行train_dual.py开始训练 方式二: 命令行方式,在pycharm中的终端窗口输入如下命令,可根据自己情况修改参数 官方示例:python train_dual.py --workers 8 --device 0 --batch 16 --data data/coco.yaml --img 640 --cfg models/detect/yolov9-c.yaml --weights '' --name yolov9-c --hyp hyp.scratch-high.yaml --min-items 0 --epochs 500 --close-mosaic 15 训练完会在runs/train文件下生成对应的训练文件及模型,后续测试可以拿来用。 三、测试 1、训练完,测试 修改detect_dual.py中的参数 --weights,改成上面训练得到的best.pt对应的路径 --source,需要测试的数据图片存放的位置,代码中的test_imgs --conf-thres,置信度阈值,自定义修改 --iou-thres,iou阈值,自定义修改 其他默认即可 pycharm中运行detect_dual.py 在runs/detect文件夹下存放检测结果图片或者视频 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用!有问题请及时沟通交流。 2、适用人群:计算机相关专业(如计科、信息安全、数据科学与大数据技术、人工智能、通信、物联网、自动化、电子信息等)在校学生、专业老师或者企业员工下载使用。
项目是一个基于SSM(Spring+SpringMVC+MyBatis)框架和Vue.js前端技术的二手手机回收平台系统。该系统旨在为二手手机回收提供一个便捷、高效的在线交易平台,同时确保交易的安全性和透明度。 在后台管理方面,系统提供了用户管理、商品管理、订单管理以及数据统计等功能。通过这些功能,管理员能够轻松地管理平台上的用户信息、审核商品发布、跟踪订单状态,并对平台的运营数据进行详细的分析。 在前端展示上,系统采用了Vue.js框架,实现了响应式的用户界面设计。用户可以通过直观的界面浏览商品、发布自己的二手手机信息、下订单以及查看交易记录。此外,系统还提供了搜索和筛选功能,帮助用户快速找到符合自己需求的商品。 技术实现上,后端使用了Java语言,结合Spring框架进行依赖注入和事务管理,SpringMVC负责处理Web请求,而MyBatis则用于数据库操作。前端则使用Vue.js进行页面渲染和交互逻辑处理,搭配Axios进行异步数据请求。 本项目的数据库设计充分考虑了数据的完整性和安全性,采用了关系型数据库MySQL进行数据存储。数据库表结构包括用户表、商品表、订单表等,确保了系统的高效运行和数据的一致性。 对于正在进行毕业设计的学生或需要项目实战练习的Java学习者来说,本项目提供了一个完整的技术栈和业务逻辑实现,可以作为学习和实践的良好参考。
### 回答1: Autoware1.12-cpu版是一款基于CPU计算的自动驾驶软件,它是Autoware自动驾驶软件系列中的一款重要发行版,适用于较老的计算机及不具有独立显卡的计算机。与其他Autoware版本相比,Autoware1.12-cpu版具有更低的运行成本,更广泛的适用范围和更高的可扩展性。它是一个包含完整自动驾驶功能的软件包,包括感知、决策和执行模块。采用多种传感器输入,如激光雷达、摄像头、GPS、IMU等,通过算法实现自动驾驶的各种功能,如自动泊车、车道保持、障碍物识别和避障等,实现了自动化的驾驶体验。此外,它也支持ROS-Industrial生态系统,可以与其他机器人或自动化设备集成使用。Autoware1.12-cpu版为研究者、开发人员和普通用户提供自动驾驶开发平台和开源软件,为智能交通和未来城市交通系统的发展做出贡献。 ### 回答2: Autoware 1.12-cpu版是一款免费开源的自动驾驶软件,它是Autoware软件套件的一个版本,旨在为自动驾驶的开发提供支持。相比于其他支持自动驾驶的软件,它具有更加完善且易用的功能,因此备受开发者青睐。 Autoware 1.12-cpu版通过计算机的CPU来实现自动驾驶功能,这意味着它能够在普通笔记本电脑上运行,而无需使用专业的硬件设备。这降低了开发成本,使更多的人参与到自动驾驶技术的研究和开发中来。 这个软件包含了多个模块,包括雷达、摄像头、GPS、激光雷达、车辆控制等功能。这些模块可以相互协作,实现自动驾驶的所有必要功能。更值得一提的是,它还提供了诸如目标检测、转弯控制、定位、路径规划等等的高级功能,使得开发者调试和测试自动驾驶的效果更加方便。 除此之外,Autoware 1.12-cpu版还提供了详细的开发和部署文档,使得使用者可以快速上手,高效地进行开发和测试。总之,它是一款全面、易用、免费、开源的自动驾驶软件,是自动驾驶领域的一个重要贡献,对于推进自动驾驶技术的发展,具有非常重要的意义。 ### 回答3: Autoware 1.12是一个开源无人驾驶软件平台,专为自动驾驶车辆而设计。它提供了各种功能模块,如定位、感知和规划,以及通信和用户界面。CPU版本是指在没有GPU加速支持的计算机使用的版本。 相对于GPU版本,CPU版本的Autoware可以在更广泛的计算机系统上运行,且性能会相对较低。在现代计算机中,GPU通常提供了更快的并行计算速度和处理能力,因此使用GPU版本可能会更快地完成任务。但是,对于一些特定的应用场景和需求,CPU版本可能足以满足要求。 非常重要的是要理解,Autoware 1.12是一项相当复杂的软件,要始终注意到其所需的硬件要求。如果使用CPU版本,在计算能力较低的计算机上运行可能会导致性能不佳,甚至无法运行。用户需充分了解计算机的硬件要求,并选择最适合其需求的版本。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值