opensource项目_2014年2月来自Opensource.com的十大帖子

opensource项目

我们在2月表现出色,并为Opensource.com创造了新记录,带来了325,775次页面访问和219,300次独立访问。 我们完成了 本月初在“开放源代码周”中的女性 ,然后以“ 开放源代码周 ”中的初学者为特色。 这些故事是从开源社区中的开发人员,设计师,教育工作者以及其他人员那里收集的,他们可能以前没有考虑过分享他们的故事,但由于我们专注于开源中的“女性”和“初学者”而受到鼓舞。

在其他新闻中,我们发布了一个新的“ 什么是OpenStack? ”页面。 我们发现许多读者渴望了解有关此开源项目的更多信息,以构建和管理云计算平台。

现在,在我们进入前10名之前,要多谢一些:

  • 感谢查尔斯顿学院计算机科学教授鲍灵博士,他为CSCI 462类学生分配了这项作业 :“探索Opensource.com。阅读该网站和博客上至少两篇中等长度的文章,以介绍您所学到的知识和对文章的回应。” 谈论一些有趣的作业!
  • 感谢维也纳的霍斯特·延斯(Horst Jens),他我们的一些教育职位翻译成德语,并将其重新发布在他的学校和教师杂志上。 知识共享不是很棒吗?

最后但并非最不重要的一点是,非常感谢您在2月向我们的读者社区发送故事的想法, 开放源代码的活动 ,并在社交媒体上与同事,学生,软件包维护者和同行分享了我们的内容是开源开源的 新手

2014年2月Opensource.com上的十大文章

  1. 谁能帮助您的Linux发行平稳运行? 今天感谢包装工 Luis Ibanez(社区主持人) —(共13126页)
  2. 皮特·赫尔佐格Pete Herzog教授如何在学校教授黑客技术和开展教育活动 (共6,769页浏览量)
  3. 什么将驱动主流台式机Linux? 作者:Maricelle Thomas —(5,490页浏览量)
  4. 马克·拉德克利夫Mark Radcliffe )撰写的2013年免费软件的十大法律问题 (共5250页浏览量)
  5. 开源作为小型企业的替代方案, 由Aseem Sharma(社区主持人) —(共3643页浏览量)
  6. 知识共享使 Ruth Suehle(红帽) 的游戏Glitch回归 —(3,599页浏览量)
  7. 克里斯蒂·埃勒Christy Eller) 在开源中赚钱并玩得开心 —(3,472页浏览量)
  8. OpenStack如何与 Gordon Haff(红帽) 采用Linux并驾齐驱(共3196次页面浏览)
  9. 乔迪·比德尔(Jodi Biddle,Red Hat) 打破了开源中 怪胎刻板印象 -(2,814次页面访问)
  10. 对我来说最佳的Linux桌面环境是什么? 由Meine提供 -(2,811页面浏览量)

编辑精选

这是上个月我们最喜欢的一些文章。

  • 我们来自OpenHatch的朋友汇总了一些开源项目新手很少问的问题列表。 最好的部分? 他们也有答案
  • 您是否考虑过让政府更多地参与进来,但是您不确定从哪里开始呢? 美国密码(Code for America)的安德鲁•海德(Andrew Hyder)提供了关于公民黑客入门的技巧。
  • 开放技术研究所(OTI)的Georgia Bullen 采取五个步骤来帮助您在开放源代码项目中实现设计和用户提供的功能。
  • 我们的一位社区主持人对Makerbot Replicator 2x 3D打印机有很好的评价
  • 关于在开放源代码中包含版权声明,存在一些有趣的讨论。 分享您的想法

其他统计

  • 什么是开源? 页面—12,305次页面浏览
  • Opensource.com主页-25,560次页面浏览

感谢您的阅读,也感谢您在Opensource.com上度过了另一个愉快的月份!

翻译自: https://opensource.com/life/14/3/top-10-posts-open-source-posts-february-2014

opensource项目

网页内源代码模板如下: <html> <meta http-equiv="Content=-Type" content="text/html; charset=utf-8"> <head> <link href="http://192.167.1.101/hint.css" rel="stylesheet"></link> </head> <body>[talkid:138031361]2014420日 03:55:45 , <span class="hint-success" data-hint"">434343</span> 向 <span class="hint-success" data-hint="">232323</span> 发送 我们已经是好友了,开始聊天吧! <p> ()</p> [talkid:138031362]2014420日 04:45:45 , <span class="hint-success" data-hint"">434343</span> 向 <span class="hint-success" data-hint="">123456</span> 发送 音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.m4a"]>音频</a> <p> ()</p> [talkid:138031363]2014420日 04:55:45 , <span class="hint-success" data-hint"">434343</span> 向 <span class="hint-success" data-hint="">123456</span> 发送 音频 :[<ahref="files/f/f123fsasfsfsjdfrhf_n.jpg"]>图片</a> <p> ()</p> [talkid:138031364]2014420日 05:55:45 , <span class="hint-success" data-hint"">434343</span> 向 <span class="hint-success" data-hint="">3234221</span> 发送 我们已经是好友了,开始聊天吧! <p> ()</p> [talkid:138031365]2014420日 06:55:45 , <span class="hint-success" data-hint"">434343</span> 向 <span class="hint-success" data-hint="">1359075</span> 发送 我们已经是好友了,开始聊天吧! <p> ()</p> </body> </html> 利用python爬虫,打开C:/Users/test/Desktop/DIDItest文件夹下多个文件夹内的html文件源代码,并爬取源代码中的ID、时间、发送号码、接收号码、发送内容,如果发送内容为音频则提取音频所在位置,反之则保留发送内容,并将爬取的内容写入csv中
07-14
你可以使用Python的BeautifulSoup库来解析HTML代码,并使用正则表达式来提取所需的数据。下面是一个示例代码,它可以打开指定文件夹下的所有HTML文件,解析源代码,并将提取的数据写入CSV文件: ```python import os import re import csv from bs4 import BeautifulSoup # 设置文件夹路径 folder_path = "C:/Users/test/Desktop/DIDItest" # 创建CSV文件并写入表头 csv_file = open("output.csv", "w", newline="", encoding="utf-8") csv_writer = csv.writer(csv_file) csv_writer.writerow(["ID", "时间", "发送号码", "接收号码", "发送内容"]) # 遍历文件夹下的所有文件 for root, dirs, files in os.walk(folder_path): for file in files: if file.endswith(".html"): file_path = os.path.join(root, file) # 打开HTML文件并读取源代码 with open(file_path, "r", encoding="utf-8") as html_file: source_code = html_file.read() # 使用BeautifulSoup解析HTML soup = BeautifulSoup(source_code, "html.parser") # 提取ID、时间、发送号码、接收号码、发送内容 talk_id = re.search(r"\[talkid:(\d+)\]", source_code).group(1) time = re.search(r"\d{4}\d{1,2}\d{1,2}日 \d{2}:\d{2}:\d{2}", source_code).group() send_number = re.search(r"<span class=\"hint-success\" data-hint\"\">(\d+)</span>", source_code).group(1) receive_number = re.findall(r"<span class=\"hint-success\" data-hint\"\">(\d+)</span>", source_code)[1] content = re.search(r"<p>\s*\(\)\s*</p>", source_code).group() # 如果发送内容为音频,则提取音频所在位置 if "音频" in content: audio_url = re.search(r"<ahref=\"(.*?)\"]>音频</a>", source_code).group(1) content = audio_url # 写入CSV文件 csv_writer.writerow([talk_id, time, send_number, receive_number, content]) # 关闭CSV文件 csv_file.close() ``` 请注意,上述代码假设每个HTML文件中都只有一个聊天记录块,并且数据的提取模式是固定的。如果HTML文件的结构有所不同,你可能需要调整正则表达式来匹配正确的数据。此外,你还可以根据需要添加异常处理以提高代码的健壮性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值