【开源学习】samr


前言:以前都是自己憋代码,给定一个任务,自己想算法、自己实现,学习的速度其实很慢,而且也不能充分借鉴别人的长处。后来看到一句话,“we learn from  great code”,其实在网上有很多优秀的开源项目,对于个人来说,完全没有必要闭门造车,既耗费时间也不一定做得比别人好。所以,以后每隔一段时间就学习一个开源项目,不一定像hadoop、linux那样很著名,太庞大也hold不住,也可以是一些很小很精致的project,关键在于能够学到新东西,不管是哪一方面的,只要是以前不懂的都可以写。每次学习之后写一篇blog总结一下,否则人就容易变懒。


废话不多说了,第一次学习一个kaggle比赛的大牛代码,源代码可以戳https://github.com/rafacarrascosa/samr 比赛相关的信息可以看http://www.kaggle.com/c/sentiment-analysis-on-movie-reviews


1. 各种开源软件的license的差别

可以参见http://www.awflasher.com/blog/archives/939

长话短说,GPL是说你一旦修改了我的代码必须以GPL协议开源;LGPL则是说商业软件可以链接开源库,此时不需要开源商业软件,但是如果对开源库作了修改,就必须把修改的部分开源;BSD则是比较随意,修改了之后闭源也可以,但是如果你用开源代码导致除了问题,项目的作者是不会负任何责任的。本项目是BSD协议的。


2. 如何在github上书写良好的README.md

目前github采用的是markdown的语法格式,说白了就是text to html,通过在纯文本里面添加一些特殊格式的符号,系统会帮助你将其转化成html的格式进行显示。

作为入门的基础可戳 https://help.github.com/articles/markdown-basics

一哥们还写了一个挺不错的markdown在线编辑器,也可以参考:http://mahua.jser.me/


3. 配置文件的书写

python里面有一个ConfigParser类,可以帮助我们来进行配置的管理,示例用法:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,这是一个自动化的任务,需要使用Python编程语言来实现。具体的思路如下: 1. 读取Excel表格中的数据,保存到一个列表中。 2. 使用Selenium模块打开Chrome浏览器,并访问给定的网址。 3. 在搜索框中输入列表中的每个关键词,并点击搜索按钮。 4. 找到搜索结果中唯一的元素,并点击下载链接。 5. 下载文件到本地目录中。 下面是一个简单的Python程序,可以实现上述任务: ```python import os import time from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.chrome.service import Service # 读取Excel表格中的数据 data = [] with open('data.xlsx', 'r') as f: for line in f.readlines(): data.append(line.strip()) # 设置Chrome浏览器的路径和驱动程序路径 chrome_path = 'C:\\Program Files\\Google\\Chrome\\Application\\chrome.exe' driver_path = 'chromedriver.exe' # 启动Chrome浏览器 service = Service(driver_path) service.start() options = webdriver.ChromeOptions() options.binary_location = chrome_path driver = webdriver.Chrome(service=service, options=options) # 访问搜索网站 driver.get('https://std.samr.gov.cn/') # 依次搜索并下载文件 for keyword in data: # 输入关键词并搜索 search_box = driver.find_element(By.ID, 'query_text') search_box.clear() search_box.send_keys(keyword) search_box.send_keys(Keys.RETURN) # 等待搜索结果加载完成 wait = WebDriverWait(driver, 10) element = wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'search_result'))) # 找到唯一的搜索结果并下载文件 result_links = driver.find_elements(By.CLASS_NAME, 'search_result_title') if len(result_links) == 1: result_links[0].click() time.sleep(3) download_link = driver.find_element(By.XPATH, '//a[text()="下载"]') download_url = download_link.get_attribute('href') os.system('wget -P downloads/ ' + download_url) # 关闭浏览器 driver.quit() ``` 在这个程序中,我们使用了Selenium模块来自动化浏览器操作,使用了os模块来下载文件。需要注意的是,程序中的Chrome浏览器和驱动程序的路径需要根据实际情况进行修改。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值